論文の概要: STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15090v3
- Date: Tue, 20 Feb 2024 20:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:21:17.080645
- Title: STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models
- Title(参考訳): STAR:大規模言語モデルを用いた構造データ生成による低リソース情報抽出
- Authors: Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham,
Nanyun Peng, Wei Wang
- Abstract要約: STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 56.27786433792638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction tasks such as event extraction require an in-depth
understanding of the output structure and sub-task dependencies. They heavily
rely on task-specific training data in the form of (passage, target structure)
pairs to obtain reasonable performance. However, obtaining such data through
human annotation is costly, leading to a pressing need for low-resource
information extraction approaches that require minimal human labeling for
real-world applications. Fine-tuning supervised models with synthesized
training data would be a generalizable method, but the existing data generation
methods either still rely on large-scale ground-truth data or cannot be applied
to complicated IE tasks due to their poor performance. To address these
challenges, we propose STAR, a data generation method that leverages Large
Language Models (LLMs) to synthesize data instances given limited seed
demonstrations, thereby boosting low-resource information extraction
performance. Our approach involves generating target structures (Y) followed by
generating passages (X), all accomplished with the aid of LLMs. We design
fine-grained step-by-step instructions to obtain the initial data instances. We
further reduce errors and improve data quality through self-reflection error
identification and self-refinement with iterative revision. Our experiments
show that the data generated by STAR significantly improve the performance of
low-resource event extraction and relation extraction tasks, even surpassing
the effectiveness of human-curated data. Human assessment of the data quality
shows STAR-generated data exhibits higher passage quality and better align with
the task definitions compared with the human-curated data.
- Abstract(参考訳): イベント抽出のような情報抽出タスクは、出力構造とサブタスク依存関係の詳細な理解を必要とする。
彼らは適切なパフォーマンスを得るために、(パッセージ、ターゲット構造)ペアという形式でタスク固有のトレーニングデータに大きく依存しています。
しかし、人間によるアノテーションによるデータ取得はコストがかかるため、実世界のアプリケーションでは最小限の人間ラベルを必要とする低リソース情報抽出アプローチの必要性が高まっている。
合成されたトレーニングデータを用いた教師付きモデルの微調整は一般化されるが、既存のデータ生成手法は大規模な地上データに依存するか、性能が悪いため複雑なieタスクに適用できない。
これらの課題に対処するために,Large Language Models (LLM) を利用したデータ生成手法STARを提案する。
我々のアプローチは、目標構造(Y)の生成と、LLMの助けを借りて達成された経路(X)の生成である。
初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
さらにエラーの低減とデータ品質の向上を,反復的修正による自己回帰的誤りの同定と自己修正によって行う。
実験の結果,STARが生成したデータは,人為的なデータよりも,低リソースのイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
データ品質の人間評価は、STAR生成したデータは、より高い通過品質を示し、人為的なデータよりもタスク定義に適合していることを示している。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - Semi-supervised Relation Extraction via Data Augmentation and
Consistency-training [2.2209333405427585]
半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。
近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。
本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
論文 参考訳(メタデータ) (2023-06-16T19:45:42Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。