論文の概要: GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks
- arxiv url: http://arxiv.org/abs/2305.16663v1
- Date: Fri, 26 May 2023 06:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:39:41.337511
- Title: GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks
- Title(参考訳): GDA:関係抽出タスクのための生成データ拡張技術
- Authors: Xuming Hu, Aiwei Liu, Zeqi Tan, Xin Zhang, Chenwei Zhang, Irwin King,
Philip S. Yu
- Abstract要約: 本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 81.51314139202152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relation extraction (RE) tasks show promising performance in extracting
relations from two entities mentioned in sentences, given sufficient
annotations available during training. Such annotations would be
labor-intensive to obtain in practice. Existing work adopts data augmentation
techniques to generate pseudo-annotated sentences beyond limited annotations.
These techniques neither preserve the semantic consistency of the original
sentences when rule-based augmentations are adopted, nor preserve the syntax
structure of sentences when expressing relations using seq2seq models,
resulting in less diverse augmentations. In this work, we propose a dedicated
augmentation technique for relational texts, named GDA, which uses two
complementary modules to preserve both semantic consistency and syntax
structures. We adopt a generative formulation and design a multi-tasking
solution to achieve synergies. Furthermore, GDA adopts entity hints as the
prior knowledge of the generative model to augment diverse sentences.
Experimental results in three datasets under a low-resource setting showed that
GDA could bring {\em 2.0\%} F1 improvements compared with no augmentation
technique. Source code and data are available.
- Abstract(参考訳): 関係抽出(RE)タスクは、トレーニング中に十分なアノテーションが与えられた文で言及された2つのエンティティから関係を抽出する際の有望なパフォーマンスを示す。
このようなアノテーションは実際に入手するのに労力がかかる。
既存の作業では、制限されたアノテーションを超えて擬似注釈文を生成するために、データ拡張技術を採用している。
これらの手法は、規則に基づく拡張が適用された場合の原文の意味的一貫性を保たず、seq2seqモデルを用いて関係を表現する場合の文の構文構造を保たず、より多様な拡張をもたらす。
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
我々は生成的定式化を採用し、相乗効果を達成するためにマルチタスクソリューションを設計する。
さらに、GDAは、生成モデルの事前知識としてエンティティヒントを採用し、多様な文を増強する。
低リソース環境下での3つのデータセットによる実験結果から、GDAは拡張テクニックを使わずにF1の改善をもたらすことが示された。
ソースコードとデータは利用可能である。
関連論文リスト
- GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Entity-to-Text based Data Augmentation for various Named Entity
Recognition Tasks [96.52649319569535]
本稿では,Entity-to-Textベースの新しいデータ拡張手法であるEnTDAを提案する。
テキスト生成過程における多様性を高めるために,多様性ビーム探索を導入する。
論文 参考訳(メタデータ) (2022-10-19T07:24:40Z) - Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding [5.02493891738617]
本研究では,木構造,エンティティ・アウェア・シンタクス・ツリー (EAST) を応用した新しいNLPデータ拡張手法を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットに対する実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-09-06T07:34:10Z) - SUBS: Subtree Substitution for Compositional Semantic Parsing [50.63574492655072]
本稿では,類似のセマンティック関数を持つサブツリーを交換可能と考える合成データ拡張にサブツリー置換を用いることを提案する。
実験の結果、このような拡張されたデータはSCANとGeoQueryで大幅にパフォーマンスが向上し、GeoQueryの合成分割で新しいSOTAに達した。
論文 参考訳(メタデータ) (2022-05-03T14:47:35Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Entity and Evidence Guided Relation Extraction for DocRED [33.69481141963074]
この課題に対して,共同トレーニングフレームワークE2GRE(Entity and Evidence Guided Relation extract)を提案する。
事前訓練された言語モデル(例えばBERT, RoBERTa)への入力としてエンティティ誘導シーケンスを導入する。
これらのエンティティ誘導シーケンスは、事前訓練された言語モデル(LM)がエンティティに関連するドキュメントの領域に集中するのに役立ちます。
我々は最近リリースされた関係抽出のための大規模データセットDocREDに対するE2GREアプローチを評価した。
論文 参考訳(メタデータ) (2020-08-27T17:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。