論文の概要: SNaRe: Domain-aware Data Generation for Low-Resource Event Detection
- arxiv url: http://arxiv.org/abs/2502.17394v2
- Date: Thu, 05 Jun 2025 15:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.459646
- Title: SNaRe: Domain-aware Data Generation for Low-Resource Event Detection
- Title(参考訳): SNaRe:低リソースイベント検出のためのドメイン対応データ生成
- Authors: Tanmay Parekh, Yuxuan Dong, Lucas Bandarkar, Artin Kim, I-Hung Hsu, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: 事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
- 参考スコア(独自算出の注目度): 84.82139313614255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event Detection (ED) -- the task of identifying event mentions from natural language text -- is critical for enabling reasoning in highly specialized domains such as biomedicine, law, and epidemiology. Data generation has proven to be effective in broadening its utility to wider applications without requiring expensive expert annotations. However, when existing generation approaches are applied to specialized domains, they struggle with label noise, where annotations are incorrect, and domain drift, characterized by a distributional mismatch between generated sentences and the target domain. To address these issues, we introduce SNaRe, a domain-aware synthetic data generation framework composed of three components: Scout, Narrator, and Refiner. Scout extracts triggers from unlabeled target domain data and curates a high-quality domain-specific trigger list using corpus-level statistics to mitigate domain drift. Narrator, conditioned on these triggers, generates high-quality domain-aligned sentences, and Refiner identifies additional event mentions, ensuring high annotation quality. Experimentation on three diverse domain ED datasets reveals how SNaRe outperforms the best baseline, achieving average F1 gains of 3-7% in the zero-shot/few-shot settings and 4-20% F1 improvement for multilingual generation. Analyzing the generated trigger hit rate and human evaluation substantiates SNaRe's stronger annotation quality and reduced domain drift.
- Abstract(参考訳): 事象検出(ED)は、生物医学、法学、疫学などの専門分野における推論を可能にするために重要である。
データ生成は、高価な専門家のアノテーションを必要とせずに、そのユーティリティをより広いアプリケーションに拡張する効果があることが証明されている。
しかし、既存の生成アプローチが特殊ドメインに適用された場合、アノテーションが正しくないラベルノイズや、生成された文と対象ドメインとの分布ミスマッチを特徴とするドメインドリフトに苦労する。
これらの問題に対処するため、Scout、Narrator、Refinerの3つのコンポーネントからなるドメイン対応合成データ生成フレームワークであるSNaReを紹介した。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、コーパスレベルの統計を用いて高品質なドメイン固有のトリガーリストをキュレートし、ドメインドリフトを緩和する。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を特定し、高いアノテーション品質を保証する。
3つの異なるドメインEDデータセットの実験では、SNaReが最高のベースラインを上回っ、ゼロショット/フェーショット設定で平均3-7%のF1ゲインを達成し、マルチリンガル生成で4-20%のF1改善を実現している。
生成されたトリガーヒット率と人間の評価を分析して、SNaReのより強力なアノテーション品質とドメインのドリフトを低減する。
関連論文リスト
- Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。
本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。
都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:23:29Z) - Gradual Source Domain Expansion for Unsupervised Domain Adaptation [45.207132297204424]
教師なしドメイン適応(UDA)は、ソースデータセットからターゲットデータセットに知識を転送することで、大きなラベル付きデータセットの必要性を克服しようとする。
本稿では,この問題を解決するために,段階的ソース領域拡張(GSDE)アルゴリズムを提案する。
GSDEはUDAタスクをスクラッチから数回トレーニングし、毎回ネットワークウェイトを再起動するが、毎回ターゲットデータでソースデータセットを拡張する。
論文 参考訳(メタデータ) (2023-11-16T06:18:35Z) - Cyclically Disentangled Feature Translation for Face Anti-spoofing [61.70377630461084]
循環不整合特徴変換ネットワーク(CDFTN)と呼ばれる新しい領域適応手法を提案する。
CDFTNは、(1)ソースドメイン不変の生長特徴と2)ドメイン固有のコンテンツ特徴とを持つ擬似ラベル付きサンプルを生成する。
ソースドメインラベルの監督の下で、合成擬似ラベル付き画像に基づいてロバスト分類器を訓練する。
論文 参考訳(メタデータ) (2022-12-07T14:12:34Z) - Deep Unsupervised Domain Adaptation: A Review of Recent Advances and
Perspectives [16.68091981866261]
対象領域のデータの性能低下に対応するために、教師なし領域適応(UDA)を提案する。
UDAは、自然言語処理、ビデオ解析、自然言語処理、時系列データ分析、医用画像解析など、有望な成果を上げている。
論文 参考訳(メタデータ) (2022-08-15T20:05:07Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - A Curriculum-style Self-training Approach for Source-Free Semantic Segmentation [91.13472029666312]
ソースフリーなドメイン適応型セマンティックセマンティックセグメンテーションのためのカリキュラムスタイルの自己学習手法を提案する。
提案手法は, ソースフリーなセマンティックセグメンテーションタスクにおいて, 合成-実-実-実-実-実-実-非実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実
論文 参考訳(メタデータ) (2021-06-22T10:21:39Z) - Disentanglement-based Cross-Domain Feature Augmentation for Effective
Unsupervised Domain Adaptive Person Re-identification [87.72851934197936]
Unsupervised Domain Adaptive (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインからラベル付きターゲットドメインへ知識を転送することを目的としている。
ひとつの課題は、トレーニング用に信頼できるラベルでターゲットドメインサンプルを生成する方法だ。
ディスタングルメントに基づくクロスドメイン機能拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:28:41Z) - Generation for adaption: a Gan-based approach for 3D Domain Adaption
inPoint Cloud [10.614067060304919]
Unsupervised Domain Adapt (UDA)は、ターゲットドメインラベルなしでそのような問題を解決することを目指しています。
本稿では,生成逆ネットワークを用いてソースドメインから合成データを生成する手法を提案する。
実験により,本手法は3つの一般的な3次元オブジェクト/シーンデータセットにおいて,最先端のUDA手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-02-15T07:24:10Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Unsupervised Domain Adaptation for Person Re-Identification through
Source-Guided Pseudo-Labeling [2.449909275410288]
人物再識別(re-ID)は、異なるカメラで撮影された同一人物の画像を取得することを目的としている。
Unsupervised Domain Adaptation (UDA)は、ターゲットデータの高価なアノテーションを避けるため、この課題に対する興味深い研究方向である。
ソースドメインとターゲットドメインにおける分類と三重項損失に基づく計量学習を最適化する2分岐アーキテクチャを利用するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-20T14:54:42Z) - Inductive Unsupervised Domain Adaptation for Few-Shot Classification via
Clustering [16.39667909141402]
ショットの分類は、多様なドメインに適応する必要がある場合、苦労する傾向があります。
本稿では、ClusteringによるFew-shot分類のためのドメイン適応性能を改善するためのフレームワークDaFeCを紹介する。
提案手法は, 絶対利得(分類精度)が4.95%, 9.55%, 3.99%, 11.62%であった。
論文 参考訳(メタデータ) (2020-06-23T08:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。