論文の概要: Cross-Domain Robustness of Transformer-based Keyphrase Generation
- arxiv url: http://arxiv.org/abs/2312.10700v1
- Date: Sun, 17 Dec 2023 12:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:56:01.562447
- Title: Cross-Domain Robustness of Transformer-based Keyphrase Generation
- Title(参考訳): Transformer-based Keyphrase 生成のクロスドメインロバスト性
- Authors: Anna Glazkova and Dmitry Morozov
- Abstract要約: キーフレーズのリストは、データベースや電子文書のリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して非常に高い結果を示す。
本稿では,6つのベンチマークコーパス間のキーフレーズ選択タスクに対する微調整BARTモデルの評価を行う。
- 参考スコア(独自算出の注目度): 1.8492669447784602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern models for text generation show state-of-the-art results in many
natural language processing tasks. In this work, we explore the effectiveness
of abstractive text summarization models for keyphrase selection. A list of
keyphrases is an important element of a text in databases and repositories of
electronic documents. In our experiments, abstractive text summarization models
fine-tuned for keyphrase generation show quite high results for a target text
corpus. However, in most cases, the zero-shot performance on other corpora and
domains is significantly lower. We investigate cross-domain limitations of
abstractive text summarization models for keyphrase generation. We present an
evaluation of the fine-tuned BART models for the keyphrase selection task
across six benchmark corpora for keyphrase extraction including scientific
texts from two domains and news texts. We explore the role of transfer learning
between different domains to improve the BART model performance on small text
corpora. Our experiments show that preliminary fine-tuning on out-of-domain
corpora can be effective under conditions of a limited number of samples.
- Abstract(参考訳): 現代のテキスト生成モデルは、多くの自然言語処理タスクにおいて最先端の結果を示す。
本研究では,キーフレーズ選択のための抽象テキスト要約モデルの有効性について検討する。
キーフレーズのリストは、電子文書のデータベースやリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して高い結果を示す。
しかし、ほとんどの場合、他のコーパスやドメインでのゼロショットパフォーマンスは大幅に低下する。
キーフレーズ生成のための抽象テキスト要約モデルのドメイン間制限について検討する。
本稿では,キーフレーズ抽出のための6つのベンチマークコーパスを対象に,キーフレーズ選択タスクのための細調整BARTモデルの評価を行った。
テキストコーパスにおけるBARTモデルの性能向上のために,異なる領域間での伝達学習の役割について検討する。
実験の結果,少数のサンプルの条件下では,領域外コーパスの事前微調整が有効であることがわかった。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase
Generation Task [0.0]
ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。
本研究は、ChatGPTのキーフレーズ生成性能と最先端モデルを比較し、この分野における2つの重要な課題に対する解決策としての可能性をテストする。
論文 参考訳(メタデータ) (2023-04-27T13:25:43Z) - Keyword Extraction from Short Texts with~a~Text-To-Text Transfer
Transformer [0.0]
本稿では,ポーランド語におけるテキスト・テキスト・トランスフォーマ言語モデル(T5)の,短文文節からの内在的・外在的キーワード抽出作業との関連性について検討する。
plT5kw, extremeText, TermoPL, KeyBERT という4つの異なる手法で得られた結果を比較し, plT5kw モデルは, 頻繁かつ疎に表現されたキーワードに対して, 特に有望な結果をもたらすと結論付けた。
論文 参考訳(メタデータ) (2022-09-28T11:31:43Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Select, Extract and Generate: Neural Keyphrase Generation with
Layer-wise Coverage Attention [75.44523978180317]
本稿では,2つの主要成分からなるニューラルキーフレーズ生成モデルであるemphSEG-Netを提案する。
科学的およびWeb文書から得られた7つのキーフレーズ生成ベンチマークの実験結果は、SEG-Netが最先端のニューラル生成手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2020-08-04T18:00:07Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。