論文の概要: LongKey: Keyphrase Extraction for Long Documents
- arxiv url: http://arxiv.org/abs/2411.17863v1
- Date: Tue, 26 Nov 2024 20:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:57.985849
- Title: LongKey: Keyphrase Extraction for Long Documents
- Title(参考訳): LongKey: 長いドキュメントのためのキーワード抽出
- Authors: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal,
- Abstract要約: LongKeyは、長いドキュメントからキーフレーズを抽出する新しいフレームワークである。
LongKeyは、既存の教師なしおよび言語モデルに基づくキーフレーズ抽出方法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 3.832358080820378
- License:
- Abstract: In an era of information overload, manually annotating the vast and growing corpus of documents and scholarly papers is increasingly impractical. Automated keyphrase extraction addresses this challenge by identifying representative terms within texts. However, most existing methods focus on short documents (up to 512 tokens), leaving a gap in processing long-context documents. In this paper, we introduce LongKey, a novel framework for extracting keyphrases from lengthy documents, which uses an encoder-based language model to capture extended text intricacies. LongKey uses a max-pooling embedder to enhance keyphrase candidate representation. Validated on the comprehensive LDKP datasets and six diverse, unseen datasets, LongKey consistently outperforms existing unsupervised and language model-based keyphrase extraction methods. Our findings demonstrate LongKey's versatility and superior performance, marking an advancement in keyphrase extraction for varied text lengths and domains.
- Abstract(参考訳): 情報過負荷の時代において、膨大な文書や学術論文を手動で注釈付けすることは、ますます現実的ではない。
自動キーフレーズ抽出は、テキスト内の代表語を識別することでこの問題に対処する。
しかし、既存のほとんどのメソッドは短いドキュメント(最大512トークン)に焦点を当てており、長文文書の処理にギャップを残している。
本稿では,エンコーダをベースとした言語モデルを用いて,長文からキーフレーズを抽出する新しいフレームワークであるLongKeyを紹介する。
LongKeyは、最大プール埋め込みを使用して、キーフレーズ候補表現を強化する。
包括的なLDKPデータセットと6つの多様な未確認データセットに基づいて検証されたLongKeyは、既存の教師なしおよび言語モデルに基づくキーフレーズ抽出手法を一貫して上回っている。
以上の結果から,LongKeyの汎用性と優れた性能が示され,テキストの長さや領域の異なるキーフレーズ抽出の進歩が示唆された。
関連論文リスト
- Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Query-Based Keyphrase Extraction from Long Documents [4.823229052465654]
本稿では,長文をチャンクすることでキーフレーズ抽出の問題を克服する。
システムは、事前訓練されたBERTモデルを採用し、それを適応して、与えられたテキストがキーフレーズを形成する確率を推定する。
論文 参考訳(メタデータ) (2022-05-11T10:29:30Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - PerKey: A Persian News Corpus for Keyphrase Extraction and Generation [1.192436948211501]
PerKeyは、ペルシャの6つのニュースサイトから553kのニュース記事のコーパスであり、比較的高品質な著者がキーフレーズを抽出した。
データは、キーフレーズの品質を保証するために、人間の評価に入れられた。
論文 参考訳(メタデータ) (2020-09-25T14:36:41Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。