論文の概要: SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection
- arxiv url: http://arxiv.org/abs/2503.03303v1
- Date: Wed, 05 Mar 2025 09:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:40.280834
- Title: SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection
- Title(参考訳): SEOE: オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティック評価フレームワーク
- Authors: Yi-Fan Lu, Xian-Ling Mao, Tian Lan, Tong Zhang, Yu-Shi Zhu, Heyan Huang,
- Abstract要約: オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
- 参考スコア(独自算出の注目度): 70.23196257213829
- License:
- Abstract: Automatic evaluation for Open Domain Event Detection (ODED) is a highly challenging task, because ODED is characterized by a vast diversity of un-constrained output labels from various domains. Nearly all existing evaluation methods for ODED usually first construct evaluation benchmarks with limited labels and domain coverage, and then evaluate ODED methods using metrics based on token-level label matching rules. However, this kind of evaluation framework faces two issues: (1) The limited evaluation benchmarks lack representatives of the real world, making it difficult to accurately reflect the performance of various ODED methods in real-world scenarios; (2) Evaluation metrics based on token-level matching rules fail to capture semantic similarity between predictions and golden labels. To address these two problems above, we propose a scalable and reliable Semantic-level Evaluation framework for Open domain Event detection (SEOE) by constructing a more representative evaluation benchmark and introducing a semantic evaluation metric. Specifically, our proposed framework first constructs a scalable evaluation benchmark that currently includes 564 event types covering 7 major domains, with a cost-effective supplementary annotation strategy to ensure the benchmark's representativeness. The strategy also allows for the supplement of new event types and domains in the future. Then, the proposed SEOE leverages large language models (LLMs) as automatic evaluation agents to compute a semantic F1-score, incorporating fine-grained definitions of semantically similar labels to enhance the reliability of the evaluation. Extensive experiments validate the representatives of the benchmark and the reliability of the semantic evaluation metric. Existing ODED methods are thoroughly evaluated, and the error patterns of predictions are analyzed, revealing several insightful findings.
- Abstract(参考訳): オープンドメインイベント検出(ODED)の自動評価は,様々な領域からの制約のない出力ラベルの多様さを特徴としているため,非常に難しい課題である。
ODEDの既存の評価手法のほとんど全ては、通常、限定ラベルとドメインカバレッジを持つ評価ベンチマークを構築し、トークンレベルのラベルマッチングルールに基づいたメトリクスを用いてODEDの評価を行う。
しかし,このような評価フレームワークは,(1)限られた評価ベンチマークでは実世界の代表が欠如しており,実世界のシナリオにおける様々なODEDメソッドの性能を正確に反映することが困難である,(2)トークンレベルのマッチングルールに基づく評価指標では,予測とゴールデンラベルのセマンティックな類似性を捉えることができない,という2つの問題に直面している。
上記の2つの問題に対処するため、より代表的な評価ベンチマークを構築し、意味評価基準を導入することにより、オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベル評価フレームワーク(SEOE)を提案する。
具体的には,提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含むスケーラブルな評価ベンチマークを構築する。
この戦略により、将来的には新たなイベントタイプやドメインのサプリメントも可能になる。
提案するSEOEは,大規模言語モデル(LLM)を自動評価エージェントとして活用して意味的F1スコアを計算し,意味的類似ラベルのきめ細かい定義を取り入れて評価の信頼性を高める。
広範囲な実験により、ベンチマークの代表者および意味評価指標の信頼性が検証された。
既存のODED手法を徹底的に評価し,予測の誤りパターンを解析し,いくつかの洞察力のある結果が得られた。
関連論文リスト
- OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Open-set object detection: towards unified problem formulation and benchmarking [2.4374097382908477]
統合VOC-COCO評価と,新しい評価指標の他に,明確な階層的オブジェクト定義を提供するOpenImagesRoadベンチマークの2つのベンチマークを紹介する。
提案したベンチマークで最先端の手法を広範囲に評価する。
この研究は、明確な問題定義を提供し、一貫した評価を保証し、OSOD戦略の有効性に関する新たな結論を導き出す。
論文 参考訳(メタデータ) (2024-11-08T13:40:01Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な戦略基準のフォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの主要な概念を紹介します。
検索強化生成と強化学習を用いてこれらの概念を実装するエージェントベースの評価フレームワークであるTestAgentを提案する。
TestAgentは、さまざまな垂直ドメインシナリオにわたる動的ベンチマークの自動生成と詳細な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [65.8478860180793]
イベント抽出は広範囲の応用により、広範囲の研究が注目されている。
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
イベント抽出のための信頼性とセマンティックな評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。