論文の概要: Self-Compositional Data Augmentation for Scientific Keyphrase Generation
- arxiv url: http://arxiv.org/abs/2411.03039v1
- Date: Tue, 05 Nov 2024 12:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:13.297097
- Title: Self-Compositional Data Augmentation for Scientific Keyphrase Generation
- Title(参考訳): 科学的キーワード生成のための自己合成データ強化
- Authors: Mael Houbre, Florian Boudin, Beatrice Daille, Akiko Aizawa,
- Abstract要約: 本稿では,キーフレーズ生成のための自己合成データ拡張手法を提案する。
共有キーフレーズに基づく学習用文書の関連性を測定し,類似した文書を組み合わせて合成サンプルを生成する。
- 参考スコア(独自算出の注目度): 28.912937922090038
- License:
- Abstract: State-of-the-art models for keyphrase generation require large amounts of training data to achieve good performance. However, obtaining keyphrase-labeled documents can be challenging and costly. To address this issue, we present a self-compositional data augmentation method. More specifically, we measure the relatedness of training documents based on their shared keyphrases, and combine similar documents to generate synthetic samples. The advantage of our method lies in its ability to create additional training samples that keep domain coherence, without relying on external data or resources. Our results on multiple datasets spanning three different domains, demonstrate that our method consistently improves keyphrase generation. A qualitative analysis of the generated keyphrases for the Computer Science domain confirms this improvement towards their representativity property.
- Abstract(参考訳): キーフレーズ生成のための最先端モデルは、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。
しかし、キーフレーズラベル付き文書の入手は困難でコストがかかる。
この問題に対処するため,自己構成型データ拡張手法を提案する。
より具体的には、共有キーフレーズに基づいてトレーニング文書の関連性を測定し、類似した文書を組み合わせて合成サンプルを生成する。
私たちの方法の利点は、外部データやリソースに頼ることなく、ドメインの一貫性を維持するための追加のトレーニングサンプルを作成することができることです。
3つの異なる領域にまたがる複数のデータセットについて,本手法がキーフレーズ生成を継続的に改善することを示す。
計算機科学領域における生成キーフレーズの質的解析により,その表現性に対する改良が確認される。
関連論文リスト
- Unsupervised Domain Adaptation for Keyphrase Generation using Citation Contexts [33.04325179283727]
キーフレーズ生成モデルを新しいドメインに適応させるには、通常、ドメイン内のラベル付きデータによる微調整をほとんど必要としない。
そこで本論文では,銀標準キーフレーズを引用文脈から抽出し,ドメイン適応のための合成ラベル付きデータを生成することにより,この問題に対処するための教師なし手法である絹について述べる。
論文 参考訳(メタデータ) (2024-09-20T06:56:14Z) - Data Augmentation for Low-Resource Keyphrase Generation [46.52115499306222]
キーフレーズ生成(英: Keyphrase generation)とは、任意の記事の内容をいくつかの有能なフレーズ(またはキーフレーズ)に要約するタスクである。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
我々は、純粋にリソース制約のあるドメインにおいて、キーフレーズの生成に対処するためのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T09:20:34Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z) - Keyphrase Generation with Cross-Document Attention [28.565813544820553]
キーワード生成は、与えられた文書の本質を要約した一連のフレーズを作成することを目的としている。
本稿では,トランスフォーマーをグローバルな注目を集めるキーフレーズ生成装置CDKGenを提案する。
また,キーフレーズ中の語彙外単語を扱うために,文書から適切な単語を選択することで,モデルを強化するコピー機構も採用している。
論文 参考訳(メタデータ) (2020-04-21T07:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。