Fugu-MT 論文翻訳(概要): EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression

論文の概要: EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression

arxiv url: http://arxiv.org/abs/2308.13399v2
Date: Tue, 29 Aug 2023 18:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 16:14:37.872794
Title: EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression
Title（参考訳）: EntropyRank: 言語モデルに基づくテキスト圧縮のためのサイド情報最適化による教師なしキーフレーズ抽出
Authors: Alexander Tsvetkov, Alon Kipnis
Abstract要約: 本稿では,事前学習言語モデル(LM)とシャノンの情報に基づいて,テキストからキーワードやキーワードを抽出する教師なし手法を提案する。具体的には,LMの条件エントロピーが最も高い句を抽出する。
参考スコア（独自算出の注目度）: 62.261476176242724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose an unsupervised method to extract keywords and keyphrases from texts based on a pre-trained language model (LM) and Shannon's information maximization. Specifically, our method extracts phrases having the highest conditional entropy under the LM. The resulting set of keyphrases turns out to solve a relevant information-theoretic problem: if provided as side information, it leads to the expected minimal binary code length in compressing the text using the LM and an entropy encoder. Alternately, the resulting set is an approximation via a causal LM to the set of phrases that minimize the entropy of the text when conditioned upon it. Empirically, the method provides results comparable to the most commonly used methods in various keyphrase extraction benchmark challenges.
Abstract（参考訳）: 本稿では,事前学習言語モデル(LM)とシャノンの情報最大化に基づくテキストからキーワードやキーワードを抽出する教師なし手法を提案する。具体的には,LMの条件エントロピーが最も高い句を抽出する。副作用として提供されると、LMとエントロピーエンコーダを使ってテキストを圧縮する際に、期待される最小のバイナリコード長につながる。逆に、結果の集合は因果的LMによる近似であり、その上で条件付けられたテキストのエントロピーを最小限にするフレーズの集合である。経験的に、この手法は様々なキーフレーズ抽出ベンチマークでよく使われる手法に匹敵する結果を提供する。

関連論文リスト

Key Algorithms for Keyphrase Generation: Instruction-Based LLMs for Russian Scientific Keyphrases [2.8402080392117757]
キーフレーズの選択は、広範囲のアプリケーションを持つ自然言語処理において難しいタスクである。既存の教師なしおよび教師なしのソリューションをロシア語に適用することは、いくつかの制限に直面している。近年の英文研究により,大言語モデル (LLM) がキーフレーズの生成に成功していることが示された。
論文参考訳（メタデータ） (2024-10-23T17:07:32Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文参考訳（メタデータ） (2023-05-24T01:48:33Z)
PatternRank: Leveraging Pretrained Language Models and Part of Speech for Unsupervised Keyphrase Extraction [0.6767885381740952]
本稿では,1つの文書から教師なしキーフレーズを抽出するために,事前訓練された言語モデルとパート・オブ・音声を提供するPatternRankを提案する。実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
論文参考訳（メタデータ） (2022-10-11T08:23:54Z)
Improving Keyphrase Extraction with Data Augmentation and Information Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文参考訳（メタデータ） (2022-09-11T22:38:02Z)
Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。 HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文参考訳（メタデータ） (2022-03-07T15:28:36Z)
Single-channel speech separation using Soft-minimum Permutation Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。 Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-16T17:25:05Z)
Learning to Ask Conversational Questions by Optimizing Levenshtein Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-30T08:44:19Z)
Persian Keyphrase Generation Using Sequence-to-Sequence Models [1.192436948211501]
キーワードは入力テキストの要約であり、テキストで議論された主主題を提供する。本稿では,キーフレーズ生成とニュース記事の抽出に,深いシーケンス・ツー・シーケンスモデルを用いて取り組む。
論文参考訳（メタデータ） (2020-09-25T14:40:14Z)
Hybrid Attention-Based Transformer Block Model for Distant Supervision Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。提案手法は評価データセットの最先端アルゴリズムより優れている。
論文参考訳（メタデータ） (2020-03-10T13:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。