論文の概要: STAR: Boosting Low-Resource Event Extraction by Structure-to-Text Data
Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15090v1
- Date: Wed, 24 May 2023 12:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:56:55.353700
- Title: STAR: Boosting Low-Resource Event Extraction by Structure-to-Text Data
Generation with Large Language Models
- Title(参考訳): STAR:大規模言語モデルを用いた構造化テキストデータ生成による低リソースイベント抽出の促進
- Authors: Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham,
Nanyun Peng, Wei Wang
- Abstract要約: 低リソースイベント抽出性能を高めるために、限られた種実演を与えられたデータインスタンスを合成することを提案する。
ステップ・バイ・ステップの詳細な手順を設計し,エラー事例と品質問題を自己修正することができる。
実験の結果,STARによって生成されたデータは,低リソースのイベント抽出性能を大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 31.85218877092392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structure prediction tasks such as event extraction require an in-depth
understanding of the output structure and sub-task dependencies, thus they
still heavily rely on task-specific training data to obtain reasonable
performance. Due to the high cost of human annotation, low-resource event
extraction, which requires minimal human cost, is urgently needed in real-world
information extraction applications. We propose to synthesize data instances
given limited seed demonstrations to boost low-resource event extraction
performance. We propose STAR, a structure-to-text data generation method that
first generates complicated event structures (Y) and then generates input
passages (X), all with Large Language Models. We design fine-grained
step-by-step instructions and the error cases and quality issues identified
through self-reflection can be self-refined. Our experiments indicate that data
generated by STAR can significantly improve the low-resource event extraction
performance and they are even more effective than human-curated data points in
some cases.
- Abstract(参考訳): イベント抽出などの構造予測タスクは、出力構造とサブタスク依存性の詳細な理解を必要とするため、適切なパフォーマンスを得るためには、依然としてタスク固有のトレーニングデータに大きく依存している。
人的アノテーションのコストが高いため、人的コストを最小限に抑える低リソースイベント抽出は、現実世界の情報抽出アプリケーションにおいて緊急に必要である。
低リソースイベント抽出性能を高めるために、限られた種実演を与えられたデータインスタンスを合成することを提案する。
本稿では,まず複雑なイベント構造(Y)を生成し,次に入力路(X)を生成する構造からテキストへのデータ生成手法STARを提案する。
詳細なステップバイステップ命令の設計を行い,自己回帰によって特定したエラーケースや品質上の問題を自己改善することが可能である。
実験の結果,STARによって生成されたデータは,低リソースのイベント抽出性能を著しく向上させることができることが示唆された。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - Semi-supervised Relation Extraction via Data Augmentation and
Consistency-training [2.2209333405427585]
半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。
近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。
本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
論文 参考訳(メタデータ) (2023-06-16T19:45:42Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。