論文の概要: EntropyRank: Unsupervised Keyphrase Extraction via Side-Information
Optimization for Language Model-based Text Compression
- arxiv url: http://arxiv.org/abs/2308.13399v1
- Date: Fri, 25 Aug 2023 14:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:42:26.885549
- Title: EntropyRank: Unsupervised Keyphrase Extraction via Side-Information
Optimization for Language Model-based Text Compression
- Title(参考訳): EntropyRank: 言語モデルに基づくテキスト圧縮のためのサイド情報最適化による教師なしキーフレーズ抽出
- Authors: Alexander Tsvetkov. Alon Kipnis
- Abstract要約: 本稿では,事前学習言語モデル(LM)とシャノンの情報に基づいて,テキストからキーワードやキーワードを抽出する教師なし手法を提案する。
具体的には,LMの条件エントロピーが最も高い句を抽出する。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an unsupervised method to extract keywords and keyphrases from
texts based on a pre-trained language model (LM) and Shannon's information
maximization. Specifically, our method extracts phrases having the highest
conditional entropy under the LM. The resulting set of keyphrases turns out to
solve a relevant information-theoretic problem: if provided as side
information, it leads to the expected minimal binary code length in compressing
the text using the LM and an entropy encoder. Alternately, the resulting set is
an approximation via a causal LM to the set of phrases that minimize the
entropy of the text when conditioned upon it. Empirically, the method provides
results comparable to the most commonly used methods in various keyphrase
extraction benchmark challenges.
- Abstract(参考訳): 本稿では,事前学習言語モデル(LM)とシャノンの情報最大化に基づくテキストからキーワードやキーワードを抽出する教師なし手法を提案する。
具体的には,LMの条件エントロピーが最も高い句を抽出する。
副作用として提供されると、LMとエントロピーエンコーダを使ってテキストを圧縮する際に、期待される最小のバイナリコード長につながる。
逆に、結果の集合は因果的LMによる近似であり、その上で条件付けられたテキストのエントロピーを最小限にするフレーズの集合である。
経験的に、この手法は様々なキーフレーズ抽出ベンチマークでよく使われる手法に匹敵する結果を提供する。
関連論文リスト
- Key Algorithms for Keyphrase Generation: Instruction-Based LLMs for Russian Scientific Keyphrases [2.8402080392117757]
キーフレーズの選択は、広範囲のアプリケーションを持つ自然言語処理において難しいタスクである。
既存の教師なしおよび教師なしのソリューションをロシア語に適用することは、いくつかの制限に直面している。
近年の英文研究により,大言語モデル (LLM) がキーフレーズの生成に成功していることが示された。
論文 参考訳(メタデータ) (2024-10-23T17:07:32Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文 参考訳(メタデータ) (2023-05-24T01:48:33Z) - PatternRank: Leveraging Pretrained Language Models and Part of Speech
for Unsupervised Keyphrase Extraction [0.6767885381740952]
本稿では,1つの文書から教師なしキーフレーズを抽出するために,事前訓練された言語モデルとパート・オブ・音声を提供するPatternRankを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T08:23:54Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Persian Keyphrase Generation Using Sequence-to-Sequence Models [1.192436948211501]
キーワードは入力テキストの要約であり、テキストで議論された主主題を提供する。
本稿では,キーフレーズ生成とニュース記事の抽出に,深いシーケンス・ツー・シーケンスモデルを用いて取り組む。
論文 参考訳(メタデータ) (2020-09-25T14:40:14Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。