論文の概要: Keyphrase Generation Beyond the Boundaries of Title and Abstract
- arxiv url: http://arxiv.org/abs/2112.06776v1
- Date: Mon, 13 Dec 2021 16:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:41:58.582291
- Title: Keyphrase Generation Beyond the Boundaries of Title and Abstract
- Title(参考訳): タイトルと抽象の境界を越えたキーフレーズの生成
- Authors: Krishna Garg, Jishnu Ray Chowdhury, Cornelia Caragea
- Abstract要約: キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
- 参考スコア(独自算出の注目度): 28.56508031460787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrase generation aims at generating phrases (keyphrases) that best
describe a given document. In scholarly domains, current approaches to this
task are neural approaches and have largely worked with only the title and
abstract of the articles. In this work, we explore whether the integration of
additional data from semantically similar articles or from the full text of the
given article can be helpful for a neural keyphrase generation model. We
discover that adding sentences from the full text particularly in the form of
summary of the article can significantly improve the generation of both types
of keyphrases that are either present or absent from the title and abstract.
The experimental results on the three acclaimed models along with one of the
latest transformer models suitable for longer documents, Longformer
Encoder-Decoder (LED) validate the observation. We also present a new
large-scale scholarly dataset FullTextKP for keyphrase generation, which we use
for our experiments. Unlike prior large-scale datasets, FullTextKP includes the
full text of the articles alongside title and abstract. We will release the
source code to stimulate research on the proposed ideas.
- Abstract(参考訳): keyphrase生成は、指定されたドキュメントを最もよく記述するフレーズ(keyphrases)を生成することを目的としている。
学術領域では、この課題に対する現在のアプローチは神経的アプローチであり、記事のタイトルと抽象のみに大きく取り組んできた。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを検討する。
特に記事の要約形式で全文から文を追加することで、タイトルや抽象語から存在するか存在しないかのいずれかのキーフレーズの生成を大幅に改善できることがわかった。
より長い文書に適した最新のトランスフォーマーモデルであるLongformer Encoder-Decoder (LED)とともに、3つの評価されたモデルの実験結果により、観測結果が検証された。
また,キーフレーズ生成のための新しい大規模学術データセットであるfulltextkpを提案する。
以前の大規模データセットとは異なり、fulltextkpはタイトルと抽象と共に記事の全文を含む。
提案されたアイデアの研究を刺激するソースコードをリリースする。
関連論文リスト
- Cross-Domain Robustness of Transformer-based Keyphrase Generation [1.8492669447784602]
キーフレーズのリストは、データベースや電子文書のリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して非常に高い結果を示す。
本稿では,6つのベンチマークコーパス間のキーフレーズ選択タスクに対する微調整BARTモデルの評価を行う。
論文 参考訳(メタデータ) (2023-12-17T12:27:15Z) - Data Augmentation for Low-Resource Keyphrase Generation [46.52115499306222]
キーフレーズ生成(英: Keyphrase generation)とは、任意の記事の内容をいくつかの有能なフレーズ(またはキーフレーズ)に要約するタスクである。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
我々は、純粋にリソース制約のあるドメインにおいて、キーフレーズの生成に対処するためのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T09:20:34Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z) - Select, Extract and Generate: Neural Keyphrase Generation with
Layer-wise Coverage Attention [75.44523978180317]
本稿では,2つの主要成分からなるニューラルキーフレーズ生成モデルであるemphSEG-Netを提案する。
科学的およびWeb文書から得られた7つのキーフレーズ生成ベンチマークの実験結果は、SEG-Netが最先端のニューラル生成手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2020-08-04T18:00:07Z) - Keyphrase Generation with Cross-Document Attention [28.565813544820553]
キーワード生成は、与えられた文書の本質を要約した一連のフレーズを作成することを目的としている。
本稿では,トランスフォーマーをグローバルな注目を集めるキーフレーズ生成装置CDKGenを提案する。
また,キーフレーズ中の語彙外単語を扱うために,文書から適切な単語を選択することで,モデルを強化するコピー機構も採用している。
論文 参考訳(メタデータ) (2020-04-21T07:58:27Z) - Diverse, Controllable, and Keyphrase-Aware: A Corpus and Method for News
Multi-Headline Generation [98.98411895250774]
ユーザ関心のキーワードで複数の見出しを生成することを提案する。
提案手法は,品質と多様性の観点から,最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-04-08T08:30:05Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。