論文の概要: REGen: A Reliable Evaluation Framework for Generative Event Argument Extraction
- arxiv url: http://arxiv.org/abs/2502.16838v1
- Date: Mon, 24 Feb 2025 04:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:18.707559
- Title: REGen: A Reliable Evaluation Framework for Generative Event Argument Extraction
- Title(参考訳): ReGen: 生成イベント引数抽出のための信頼性の高い評価フレームワーク
- Authors: Omar Sharif, Joseph Gatto, Madhusudan Basak, Sarah M. Preum,
- Abstract要約: イベント引数抽出は、テキストで事前に定義されたイベントロールの引数を識別する。
従来の評価は正確な一致(EM)に依存しており、予測された引数を正確に一致させる必要がある。
生成イベント引数抽出のための信頼性評価フレームワーク(Reliable Evaluation framework for Generative Event argument extract, REGen)を紹介する。
- 参考スコア(独自算出の注目度): 1.9820694575112385
- License:
- Abstract: Event argument extraction identifies arguments for predefined event roles in text. Traditional evaluations rely on exact match (EM), requiring predicted arguments to match annotated spans exactly. However, this approach fails for generative models like large language models (LLMs), which produce diverse yet semantically accurate responses. EM underestimates performance by disregarding valid variations, implicit arguments (unstated but inferable), and scattered arguments (distributed across a document). To bridge this gap, we introduce Reliable Evaluation framework for Generative event argument extraction (REGen), a framework that better aligns with human judgment. Across six datasets, REGen improves performance by an average of 23.93 F1 points over EM. Human validation further confirms REGen's effectiveness, achieving 87.67% alignment with human assessments of argument correctness.
- Abstract(参考訳): イベント引数抽出は、テキストで事前に定義されたイベントロールの引数を識別する。
従来の評価は正確な一致(EM)に依存しており、予測された引数を正確に一致させる必要がある。
しかし、このアプローチは大きな言語モデル(LLM)のような生成モデルでは失敗する。
EMは、有効なバリエーション、暗黙の引数(非静的だが推論不可能)、散在する引数(ドキュメントに分散)を無視してパフォーマンスを過小評価する。
このギャップを埋めるために、生成イベント引数抽出のための信頼性評価フレームワーク(Reliable Evaluation framework for Generative Event argument extract, REGen)を紹介します。
6つのデータセットで、REGenはEM上で平均23.93F1ポイントのパフォーマンスを改善する。
人間の検証はREGenの有効性をさらに確認し、議論の正しさに関する人間の評価と87.67%の一致を達成した。
関連論文リスト
- Attention with Dependency Parsing Augmentation for Fine-Grained Attribution [26.603281615221505]
提案手法は,検索した文書から各回答に対する証拠を裏付ける,きめ細かな属性機構を開発する。
既存の属性法は、応答と文書間のモデル-内部類似度(Saliency scores)や隠れ状態類似度(hidden state similarity)など)に依存している。
まず,表現の粒度を保ちつつ,集合ユニオン操作を通じてトークンに関する証拠を集約する。
第二に、ターゲットスパンの意味的完全性を強化するために依存性解析を統合することで属性の強化を行う。
論文 参考訳(メタデータ) (2024-12-16T03:12:13Z) - Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - CASA: Causality-driven Argument Sufficiency Assessment [79.13496878681309]
ゼロショット因果関係に基づく議論十分性評価フレームワークであるCASAを提案する。
PSは前提イベントの導入が前提イベントと結論イベントの両方が欠落した場合の結論につながる可能性を測っている。
2つの論理的誤り検出データセットの実験により、CASAは不十分な議論を正確に識別することを示した。
論文 参考訳(メタデータ) (2024-01-10T16:21:18Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Revisiting the Role of Similarity and Dissimilarity in Best Counter
Argument Retrieval [1.7607244667735586]
そこで我々は,類似度と相似度を指標として,解答を効率よく評価するモデルを構築した。
本稿では,BERTに基づく新しいモデルであるBipolar-encoderを提案する。
実験の結果,提案手法は49.04%の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T08:13:48Z) - Retrieval-Augmented Generative Question Answering for Event Argument
Extraction [66.24622127143044]
イベント引数抽出のための検索拡張生成QAモデル(R-GQA)を提案する。
最も類似したQAペアを検索し、現在の例のコンテキストへのプロンプトとして拡張し、引数を回答としてデコードする。
提案手法は, 様々な設定において, かなり先行した手法より優れている。
論文 参考訳(メタデータ) (2022-11-14T02:00:32Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z) - Same Side Stance Classification Task: Facilitating Argument Stance
Classification by Fine-tuning a BERT Model [8.8896707993459]
同じサイドスタンス分類タスクは、両方の引数が同じスタンスを共有するかどうかによって分類された引数ペアのデータセットを提供する。
3つのエポックに対して事前学習したBERTモデルを微調整し、各引数の最初の512トークンを使用して、2つの引数が同じスタンスを持つかどうかを予測する。
論文 参考訳(メタデータ) (2020-04-23T13:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。