論文の概要: Data Augmentation for Low-Resource Keyphrase Generation
- arxiv url: http://arxiv.org/abs/2305.17968v1
- Date: Mon, 29 May 2023 09:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:39:17.901939
- Title: Data Augmentation for Low-Resource Keyphrase Generation
- Title(参考訳): 低リソースキーフレーズ生成のためのデータ拡張
- Authors: Krishna Garg, Jishnu Ray Chowdhury, Cornelia Caragea
- Abstract要約: キーフレーズ生成(英: Keyphrase generation)とは、任意の記事の内容をいくつかの有能なフレーズ(またはキーフレーズ)に要約するタスクである。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
我々は、純粋にリソース制約のあるドメインにおいて、キーフレーズの生成に対処するためのデータ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 46.52115499306222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrase generation is the task of summarizing the contents of any given
article into a few salient phrases (or keyphrases). Existing works for the task
mostly rely on large-scale annotated datasets, which are not easy to acquire.
Very few works address the problem of keyphrase generation in low-resource
settings, but they still rely on a lot of additional unlabeled data for
pretraining and on automatic methods for pseudo-annotations. In this paper, we
present data augmentation strategies specifically to address keyphrase
generation in purely resource-constrained domains. We design techniques that
use the full text of the articles to improve both present and absent keyphrase
generation. We test our approach comprehensively on three datasets and show
that the data augmentation strategies consistently improve the state-of-the-art
performance. We release our source code at
https://github.com/kgarg8/kpgen-lowres-data-aug.
- Abstract(参考訳): キーフレーズ生成(英: keyphrase generation)とは、ある記事の内容をいくつかの敬語句(またはキーフレーズ)に要約する作業である。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
低リソース設定でのキーフレーズ生成の問題に対処する作業はごくわずかだが、事前トレーニングや擬似注釈の自動メソッドのためにラベルなしのデータが多数追加されている。
本稿では,純粋にリソース制約のあるドメインにおけるキーフレーズ生成に特化するデータ拡張戦略を提案する。
我々は,現在および不在のキーフレーズ生成を改善するために,記事の全文を用いた手法を設計する。
提案手法を3つのデータセットで総合的に検証し,データ拡張戦略が常に最先端のパフォーマンスを改善することを示す。
ソースコードはhttps://github.com/kgarg8/kpgen-lowres-data-augで公開しています。
関連論文リスト
- Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - KPDrop: An Approach to Improving Absent Keyphrase Generation [26.563045686728135]
キーワード生成(英: Keyphrase generation)とは、ある文書の主要なトピックを要約するフレーズ(キーワード)を生成するタスクである。
KPDrop(keyphrase dropout)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T18:25:56Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - PerKey: A Persian News Corpus for Keyphrase Extraction and Generation [1.192436948211501]
PerKeyは、ペルシャの6つのニュースサイトから553kのニュース記事のコーパスであり、比較的高品質な著者がキーフレーズを抽出した。
データは、キーフレーズの品質を保証するために、人間の評価に入れられた。
論文 参考訳(メタデータ) (2020-09-25T14:36:41Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。