論文の概要: Enhancing Automatic Keyphrase Labelling with Text-to-Text Transfer Transformer (T5) Architecture: A Framework for Keyphrase Generation and Filtering
- arxiv url: http://arxiv.org/abs/2409.16760v1
- Date: Wed, 25 Sep 2024 09:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:58:02.066180
- Title: Enhancing Automatic Keyphrase Labelling with Text-to-Text Transfer Transformer (T5) Architecture: A Framework for Keyphrase Generation and Filtering
- Title(参考訳): Text-to-Text Transfer Transformer (T5) アーキテクチャによる自動キーフレーズラベリングの強化: キーワード生成とフィルタリングのためのフレームワーク
- Authors: Jorge Gabín, M. Eduardo Ares, Javier Parapar,
- Abstract要約: 本稿では,テキスト・テキスト・トランスフォーマ(T5)アーキテクチャに基づくキーフレーズ生成モデルを提案する。
また,T5アーキテクチャに基づく新しいキーフレーズフィルタリング手法を提案する。
- 参考スコア(独自算出の注目度): 2.1656586298989793
- License:
- Abstract: Automatic keyphrase labelling stands for the ability of models to retrieve words or short phrases that adequately describe documents' content. Previous work has put much effort into exploring extractive techniques to address this task; however, these methods cannot produce keyphrases not found in the text. Given this limitation, keyphrase generation approaches have arisen lately. This paper presents a keyphrase generation model based on the Text-to-Text Transfer Transformer (T5) architecture. Having a document's title and abstract as input, we learn a T5 model to generate keyphrases which adequately define its content. We name this model docT5keywords. We not only perform the classic inference approach, where the output sequence is directly selected as the predicted values, but we also report results from a majority voting approach. In this approach, multiple sequences are generated, and the keyphrases are ranked based on their frequency of occurrence across these sequences. Along with this model, we present a novel keyphrase filtering technique based on the T5 architecture. We train a T5 model to learn whether a given keyphrase is relevant to a document. We devise two evaluation methodologies to prove our model's capability to filter inadequate keyphrases. First, we perform a binary evaluation where our model has to predict if a keyphrase is relevant for a given document. Second, we filter the predicted keyphrases by several AKG models and check if the evaluation scores are improved. Experimental results demonstrate that our keyphrase generation model significantly outperforms all the baselines, with gains exceeding 100\% in some cases. The proposed filtering technique also achieves near-perfect accuracy in eliminating false positives across all datasets.
- Abstract(参考訳): 自動キーフレーズラベリング(英: Automatic Keyphrase labelling)とは、文書の内容が適切に記述された単語や短いフレーズをモデルで検索する能力である。
これまでの研究は、この課題に対処するための抽出技法の探求に多くの努力を払ってきたが、これらの手法はテキストに見つからないキーフレーズを生成できない。
この制限から、最近キーフレーズ生成アプローチが生まれている。
本稿では,テキスト・テキスト・トランスフォーマ(T5)アーキテクチャに基づくキーフレーズ生成モデルを提案する。
文書のタイトルと要約を入力として持つことで、T5モデルを学び、その内容が適切に定義されるキーフレーズを生成する。
私たちはこのモデルを docT5keywords と命名します。
予測値として出力シーケンスが直接選択される古典的推論手法だけでなく,多数決方式による結果も報告する。
このアプローチでは、複数のシークエンスを生成し、これらのシークエンスで発生する頻度に基づいてキーフレーズをランク付けする。
このモデルとともに,T5アーキテクチャに基づく新しいキーフレーズフィルタリング手法を提案する。
我々は、与えられたキーフレーズが文書に関連があるかどうかを知るために、T5モデルを訓練する。
キーフレーズを不適切にフィルタリングするモデルの能力を証明するために,2つの評価手法を考案した。
まず、ある文書にキーフレーズが関係しているかどうかをモデルが予測しなければならないバイナリ評価を行う。
第二に、予測キーフレーズを複数のAKGモデルでフィルタリングし、評価スコアが改善されたかどうかを確認する。
実験の結果,キーフレーズ生成モデルはすべてのベースラインを著しく上回り,ゲインが100\%を超える場合もあった。
提案手法は,全データセットにまたがる偽陽性の除去において,ほぼ完全な精度を実現する。
関連論文リスト
- MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - Neural Keyphrase Generation: Analysis and Evaluation [47.004575377472285]
本稿では,T5(事前学習型トランスフォーマー),CatSeq-Transformer(非事前学習型トランスフォーマー),ExHiRD(リカレントニューラルネットワーク)の3つの強力なモデルで示される傾向について検討する。
2つのキーフレーズの類似性を評価するために,SoftKeyScoreという新しいメトリクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-27T00:10:21Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Unsupervised Deep Keyphrase Generation [14.544869226959612]
keyphrase生成は、長い文書を敬語句のコレクションにまとめることを目的としている。
ディープニューラルモデルは、このタスクにおいて顕著な成功を示し、文書から欠落するキーフレーズを予測することができる。
キーフレーズ生成のための新しい手法であるAutoKeyGenについて,人間のアノテーションを介さずに提示する。
論文 参考訳(メタデータ) (2021-04-18T05:53:19Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Select, Extract and Generate: Neural Keyphrase Generation with
Layer-wise Coverage Attention [75.44523978180317]
本稿では,2つの主要成分からなるニューラルキーフレーズ生成モデルであるemphSEG-Netを提案する。
科学的およびWeb文書から得られた7つのキーフレーズ生成ベンチマークの実験結果は、SEG-Netが最先端のニューラル生成手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2020-08-04T18:00:07Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。