論文の概要: REGen: A Reliable Evaluation Framework for Generative Event Argument Extraction
- arxiv url: http://arxiv.org/abs/2502.16838v2
- Date: Wed, 10 Sep 2025 15:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.019321
- Title: REGen: A Reliable Evaluation Framework for Generative Event Argument Extraction
- Title(参考訳): ReGen: 生成イベント引数抽出のための信頼性の高い評価フレームワーク
- Authors: Omar Sharif, Joseph Gatto, Madhusudan Basak, Sarah M. Preum,
- Abstract要約: イベント引数抽出は、テキストで事前に定義されたイベントロールの引数を識別する。
既存の作業はこのタスクを正確な一致(EM)で評価し、予測された引数は注釈付きスパンと正確に一致しなければならない。
生成イベント引数抽出のための信頼性評価フレームワークであるREGenを紹介する。
- 参考スコア(独自算出の注目度): 6.210603343412543
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event argument extraction identifies arguments for predefined event roles in text. Existing work evaluates this task with exact match (EM), where predicted arguments must align exactly with annotated spans. While suitable for span-based models, this approach falls short for large language models (LLMs), which often generate diverse yet semantically accurate arguments. EM severely underestimates performance by disregarding valid variations. Furthermore, EM evaluation fails to capture implicit arguments (unstated but inferable) and scattered arguments (distributed across a document). These limitations underscore the need for an evaluation framework that better captures models' actual performance. To bridge this gap, we introduce REGen, a Reliable Evaluation framework for Generative event argument extraction. REGen combines the strengths of exact, relaxed, and LLM-based matching to better align with human judgment. Experiments on six datasets show that REGen reveals an average performance gain of +23.93 F1 over EM, reflecting capabilities overlooked by prior evaluation. Human validation further confirms REGen's effectiveness, achieving 87.67% alignment with human assessments of argument correctness.
- Abstract(参考訳): イベント引数抽出は、テキストで事前に定義されたイベントロールの引数を識別する。
既存の作業はこのタスクを正確な一致(EM)で評価し、予測された引数は注釈付きスパンと正確に一致しなければならない。
スプレッドベースモデルに適しているが、このアプローチは大きな言語モデル(LLM)では不十分であり、多種多様だが意味論的に正確な引数を生成することが多い。
EMは有効なバリエーションを無視して性能を過小評価する。
さらに、EM評価は暗黙の引数(非静的だが推論不可能)と散在する引数(ドキュメントに分散)をキャプチャできない。
これらの制限は、モデルの実際のパフォーマンスをよりよくキャプチャする評価フレームワークの必要性を浮き彫りにする。
このギャップを埋めるために、生成イベント引数抽出のための信頼性評価フレームワークであるREGenを紹介します。
REGenは、正確な、リラックスした、そしてLLMベースのマッチングの強さを組み合わせて、人間の判断とよりよく一致させる。
6つのデータセットの実験では、REGenはEMよりも平均的なパフォーマンス向上を+23.93 F1で示しており、事前評価で見落とされた能力を反映している。
人間の検証はREGenの有効性をさらに確認し、議論の正しさに関する人間の評価と87.67%の一致を達成した。
関連論文リスト
- CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization [90.15027447565427]
思考の連鎖(CoT)は、モデルの予測を導くのに役立つ自由テキストの説明を生成する。
自己一貫性(SC: Self-Consistency)は、複数の生成された説明に対する予測を疎外する。
我々は、$textbfC$hain-$textbfo$f-$textbfKe$ywords (CoKe)を提案する。
論文 参考訳(メタデータ) (2025-03-21T13:37:46Z) - Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Self-Refinement [6.035020544588768]
イベント引数抽出(EAE)は、あるイベントのロール固有のテキストスパン(例えば、引数)を特定するタスクである。
本稿では,イベントの議論をよりコスト効率よく抽出する階層的枠組みを提案する。
議論の正確な境界を求める際に, LLM が直面する課題に対処するために LEAFER を導入する。
論文 参考訳(メタデータ) (2024-01-24T04:13:28Z) - CASA: Causality-driven Argument Sufficiency Assessment [79.13496878681309]
ゼロショット因果関係に基づく議論十分性評価フレームワークであるCASAを提案する。
PSは前提イベントの導入が前提イベントと結論イベントの両方が欠落した場合の結論につながる可能性を測っている。
2つの論理的誤り検出データセットの実験により、CASAは不十分な議論を正確に識別することを示した。
論文 参考訳(メタデータ) (2024-01-10T16:21:18Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Revisiting the Role of Similarity and Dissimilarity in Best Counter
Argument Retrieval [1.7607244667735586]
そこで我々は,類似度と相似度を指標として,解答を効率よく評価するモデルを構築した。
本稿では,BERTに基づく新しいモデルであるBipolar-encoderを提案する。
実験の結果,提案手法は49.04%の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T08:13:48Z) - Retrieval-Augmented Generative Question Answering for Event Argument
Extraction [66.24622127143044]
イベント引数抽出のための検索拡張生成QAモデル(R-GQA)を提案する。
最も類似したQAペアを検索し、現在の例のコンテキストへのプロンプトとして拡張し、引数を回答としてデコードする。
提案手法は, 様々な設定において, かなり先行した手法より優れている。
論文 参考訳(メタデータ) (2022-11-14T02:00:32Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z) - Same Side Stance Classification Task: Facilitating Argument Stance
Classification by Fine-tuning a BERT Model [8.8896707993459]
同じサイドスタンス分類タスクは、両方の引数が同じスタンスを共有するかどうかによって分類された引数ペアのデータセットを提供する。
3つのエポックに対して事前学習したBERTモデルを微調整し、各引数の最初の512トークンを使用して、2つの引数が同じスタンスを持つかどうかを予測する。
論文 参考訳(メタデータ) (2020-04-23T13:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。