論文の概要: Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models
- arxiv url: http://arxiv.org/abs/2410.09418v1
- Date: Sat, 12 Oct 2024 07:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:24:23.452210
- Title: Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models
- Title(参考訳): Beyond Exact Match: 大規模言語モデルによるイベント抽出を意味的に再評価する
- Authors: Yi-Fan Lu, Xian-Ling Mao, Tian Lan, Chen Xu, Heyan Huang,
- Abstract要約: イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
- 参考スコア(独自算出の注目度): 69.38024658668887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event extraction has gained extensive research attention due to its broad range of applications. However, the current mainstream evaluation method for event extraction relies on token-level exact match, which misjudges numerous semantic-level correct cases. This reliance leads to a significant discrepancy between the evaluated performance of models under exact match criteria and their real performance. To address this problem, we propose RAEE, an automatic evaluation framework that accurately assesses event extraction results at semantic-level instead of token-level. Specifically, RAEE leverages Large Language Models (LLMs) as automatic evaluation agents, incorporating chain-of-thought prompting and an adaptive mechanism to achieve interpretable and adaptive evaluations for precision and recall of triggers and arguments. Extensive experimental results demonstrate that: (1) RAEE achieves a very high correlation with the human average; (2) after reassessing 14 models, including advanced LLMs, on 10 datasets, there is a significant performance gap between exact match and RAEE. The exact match evaluation significantly underestimates the performance of existing event extraction models, particularly underestimating the capabilities of LLMs; (3) fine-grained analysis under RAEE evaluation reveals insightful phenomena worth further exploration. The evaluation toolkit of our proposed RAEE will be publicly released.
- Abstract(参考訳): イベント抽出は広範囲の応用により、広範囲の研究が注目されている。
しかし、イベント抽出の現在の主流評価手法はトークンレベルの正確な一致に依存しており、多くの意味レベルの正しいケースを誤認している。
この依存は、正確な一致基準の下で評価されたモデルの性能と実際の性能との間に大きな相違をもたらす。
この問題を解決するために,トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
具体的には,Large Language Models (LLMs) を自動評価エージェントとして活用し,トリガと引数の精度とリコールに対する解釈的かつ適応的な評価を実現するためのチェーン・オブ・シークレット・プロンプトと適応的なメカニズムを取り入れた。
1) RAEEは人間の平均値と非常に高い相関を達成し, (2) 高度なLCMを含む14のモデルを再評価した結果, RAEEとRAEEの精度差は顕著であった。
正確なマッチング評価は、既存のイベント抽出モデルの性能を著しく過小評価し、特にLLMの性能を過小評価する。
提案したRAEEの評価ツールキットを公開します。
関連論文リスト
- Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Improving EO Foundation Models with Confidence Assessment for enhanced Semantic segmentation [0.0]
我々は,拡張セマンティックセグメンテーション(CAS)モデルのための信頼度評価法を開発した。
セグメントレベルとピクセルレベルの両方の信頼度を評価し、ラベルと信頼スコアの両方を出力として提供する。
この研究は、特にセマンティックセグメンテーションの下流タスクにおけるEOファンデーションモデルの評価において重要な応用がある。
論文 参考訳(メタデータ) (2024-06-26T12:05:49Z) - Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T13:39:32Z) - RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference [20.250550771195726]
本稿では、効率的な推論のためのトレーニング不要な検索拡張早期実行フレームワークであるRAEEを提案する。
実験の結果,提案したRAEEは推論を著しく加速できることが示された。
RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。
論文 参考訳(メタデータ) (2024-05-24T04:01:24Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Leveraging Uncertainty Estimates To Improve Classifier Performance [4.4951754159063295]
バイナリ分類では、正のクラスのモデルスコアが、アプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいて、インスタンスのラベルを予測する。
しかし、モデルスコアは真の肯定率と一致しないことが多い。
これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。
論文 参考訳(メタデータ) (2023-11-20T12:40:25Z) - TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。
TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文 参考訳(メタデータ) (2023-11-16T04:43:03Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。