Fugu-MT 論文翻訳(概要): Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models

論文の概要: Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models

arxiv url: http://arxiv.org/abs/2410.09418v2
Date: Tue, 04 Mar 2025 07:06:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:36.945637
Title: Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models
Title（参考訳）: Beyond Exact Match: 大規模言語モデルによるイベント抽出を意味的に再評価する
Authors: Yi-Fan Lu, Xian-Ling Mao, Tian Lan, Heyan Huang, Chen Xu, Xiaoyan Gao,
Abstract要約: イベント抽出は広範囲の応用により、広範囲の研究が注目されている。イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。イベント抽出のための信頼性とセマンティックな評価フレームワークであるRAEEを提案する。
参考スコア（独自算出の注目度）: 65.8478860180793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Event extraction has gained extensive research attention due to its broad range of applications. However, the current mainstream evaluation method for event extraction relies on token-level exact match, which misjudges numerous semantic-level correct cases. This reliance leads to a significant discrepancy between the evaluated performance of models under exact match criteria and their real performance. To address this problem, we propose a reliable and semantic evaluation framework for event extraction, named RAEE, which accurately assesses extraction results at semantic-level instead of token-level. Specifically, RAEE leverages large language models (LLMs) as evaluation agents, incorporating an adaptive mechanism to achieve adaptive evaluations for precision and recall of triggers and arguments. Extensive experiments demonstrate that: (1) RAEE achieves a very strong correlation with human judgments; (2) after reassessing 14 models, including advanced LLMs, on 10 datasets, there is a significant performance gap between exact match and RAEE. The exact match evaluation significantly underestimates the performance of existing event extraction models, and in particular underestimates the capabilities of LLMs; (3) fine-grained analysis under RAEE evaluation reveals insightful phenomena worth further exploration. The evaluation toolkit of our proposed RAEE is publicly released.
Abstract（参考訳）: イベント抽出は広範囲の応用により、広範囲の研究が注目されている。しかし、イベント抽出の現在の主流評価手法はトークンレベルの正確な一致に依存しており、多くの意味レベルの正しいケースを誤認している。この依存は、正確な一致基準の下で評価されたモデルの性能と実際の性能との間に大きな相違をもたらす。この問題に対処するために,トークンレベルではなくセマンティックレベルの抽出結果を正確に評価するRAEEという,イベント抽出のための信頼性の高いセマンティック評価フレームワークを提案する。具体的には、RAEEは大規模言語モデル(LLM)を評価エージェントとして活用し、トリガと引数の精度とリコールのための適応的な評価を実現するための適応的なメカニズムを取り入れている。 1) RAEEは人間の判断と非常に強い相関を達成し, (2) 高度なLCMを含む14のモデルを再評価した後, RAEEと正確なマッチングの間には顕著な性能差が認められた。正確なマッチング評価は,既存のイベント抽出モデルの性能を著しく過小評価し,特にLLMの性能を過小評価する。提案したRAEEの評価ツールキットを公開している。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。 GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Improving EO Foundation Models with Confidence Assessment for enhanced Semantic segmentation [0.0]
我々は,拡張セマンティックセグメンテーション(CAS)モデルのための信頼度評価法を開発した。セグメントレベルとピクセルレベルの両方の信頼度を評価し、ラベルと信頼スコアの両方を出力として提供する。この研究は、特にセマンティックセグメンテーションの下流タスクにおけるEOファンデーションモデルの評価において重要な応用がある。
論文参考訳（メタデータ） (2024-06-26T12:05:49Z)
Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文参考訳（メタデータ） (2024-06-12T13:39:32Z)
RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference [20.250550771195726]
本稿では、効率的な推論のためのトレーニング不要な検索拡張早期実行フレームワークであるRAEEを提案する。実験の結果,提案したRAEEは推論を著しく加速できることが示された。 RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。
論文参考訳（メタデータ） (2024-05-24T04:01:24Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Leveraging Uncertainty Estimates To Improve Classifier Performance [4.4951754159063295]
バイナリ分類では、正のクラスのモデルスコアが、アプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいて、インスタンスのラベルを予測する。しかし、モデルスコアは真の肯定率と一致しないことが多い。これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。
論文参考訳（メタデータ） (2023-11-20T12:40:25Z)
TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。 TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。 TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文参考訳（メタデータ） (2023-11-16T04:43:03Z)
Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。 ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-19T03:51:10Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。