論文の概要: GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
- arxiv url: http://arxiv.org/abs/2506.00649v1
- Date: Sat, 31 May 2025 17:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.663173
- Title: GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
- Title(参考訳): GuideX: ゼロショット情報抽出のためのガイド付き合成データ生成
- Authors: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre,
- Abstract要約: GUIDEXは、ドメイン固有のスキーマを自動的に定義し、ガイドラインを推論し、合成ラベル付きインスタンスを生成する方法である。
GUIDEXを搭載したLlama 3.1は、7つのゼロショット名前付きエンティティ認識ベンチマークにまたがって新しい最先端技術を設定する。
GUIDEXで訓練されたモデルは、人間がラベル付けしたデータを使わずに以前の手法で最大7F1ポイントまで増加し、組み合わせると2F1ポイント近く上昇する。
- 参考スコア(独自算出の注目度): 17.229702861903327
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Information Extraction (IE) systems are traditionally domain-specific, requiring costly adaptation that involves expert schema design, data annotation, and model training. While Large Language Models have shown promise in zero-shot IE, performance degrades significantly in unseen domains where label definitions differ. This paper introduces GUIDEX, a novel method that automatically defines domain-specific schemas, infers guidelines, and generates synthetically labeled instances, allowing for better out-of-domain generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art across seven zeroshot Named Entity Recognition benchmarks. Models trained with GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data, and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX demonstrate enhanced comprehension of complex, domain-specific annotation schemas. Code, models, and synthetic datasets are available at neilus03.github.io/guidex.com
- Abstract(参考訳): 情報抽出(IE)システムは伝統的にドメイン固有であり、専門家のスキーマ設計、データアノテーション、モデルトレーニングを含む費用がかかる。
大きな言語モデルはゼロショットIEで有望であることを示しているが、ラベル定義が異なる未確認領域では性能が著しく低下している。
本稿では、ドメイン固有のスキーマを自動的に定義し、ガイドラインを推論し、合成ラベル付きインスタンスを生成する新しい手法であるGUIDEXを紹介する。
GUIDEXを使った微調整のLlama 3.1では、7つのゼロショット名前付きエンティティ認識ベンチマークに新しい最先端技術が設定されている。
GUIDEXで訓練されたモデルは、人間がラベル付けしたデータを使わずに以前の手法で最大7F1ポイントまで増加し、組み合わせると2F1ポイント近く上昇する。
GUIDEXで訓練されたモデルは、複雑なドメイン固有のアノテーションスキーマの拡張的な理解を示した。
コード、モデル、合成データセットはneilus03.github.io/guidex.comで入手できる。
関連論文リスト
- TRIX: A More Expressive Model for Zero-shot Domain Transfer in Knowledge Graphs [10.637403696670301]
完全な帰納的知識グラフモデルを複数のドメインでトレーニングし、新しい未知のドメインでゼロショット知識グラフ補完(KGC)を実行することができる。
TRIXと呼ばれる表現的かつ有能な完全帰納モデルを導入する。
TRIXは、ゼロショットエンティティにおける最先端の完全帰納モデルと、新しいドメインにおける関係予測より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-26T19:23:49Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Zero-Shot Fact-Checking with Semantic Triples and Knowledge Graphs [13.024338745226462]
クレームとエビデンス文を直接操作する代わりに、外部知識グラフを用いたセマンティックトリプルに分解する。
これにより、特定のトレーニングデータを必要とするモデルを教師する、敵対的なデータセットとドメインに一般化することができる。
提案手法は, FEVER, FEVER-Symmetric, FEVER 2.0, Climate-FEVERにおいて, 従来のゼロショットアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T01:48:31Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - SemSup-XC: Semantic Supervision for Zero and Few-shot Extreme
Classification [22.053123036772053]
SemSup-XCは3つのXCデータセット上で最先端のゼロショットと少数ショットのパフォーマンスを実現するモデルである。
自動収集されたセマンティッククラス記述を用いて、クラスを表現し、新しいハイブリッドマッチングモジュールによる一般化を容易にする。
対照的な学習でトレーニングされたSemSup-XCは、ベースラインを著しく上回り、考慮された3つのデータセットすべてに対して最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2023-01-26T18:49:02Z) - General-to-Specific Transfer Labeling for Domain Adaptable Keyphrase
Generation [30.167332489528608]
トレーニングキーフレーズ生成(KPG)モデルは、大量の注釈付きデータを必要とする。
KPGモデルの一般的な構文的特徴からドメイン関連セマンティクスへの学習焦点を徐々にガイドする3段階パイプラインを提案する。
実験結果から,提案手法は高品質なキーフレーズを新規ドメインで生成し,ドメイン内アノテートされた限られたデータに適応して一貫した改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-08-20T04:43:01Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。