論文の概要: The Devil is in the Details: On the Pitfalls of Event Extraction
Evaluation
- arxiv url: http://arxiv.org/abs/2306.06918v1
- Date: Mon, 12 Jun 2023 07:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:38:43.380474
- Title: The Devil is in the Details: On the Pitfalls of Event Extraction
Evaluation
- Title(参考訳): 悪魔は細部にある:イベント抽出評価の落とし穴について
- Authors: Peng Hao, Wang Xiaozhi, Yao Feng, Zeng Kaisheng, Hou Lei, Li Juanzi,
Liu Zhiyuan, Shen Weixing
- Abstract要約: イベント抽出(EE)は、テキストからイベントを抽出することを目的とした重要なタスクである。
本稿では,脳波評価の信頼性を確認し,大きな落とし穴を3つ同定する。
- 参考スコア(独自算出の注目度): 5.101123537955207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event extraction (EE) is a crucial task aiming at extracting events from
texts, which includes two subtasks: event detection (ED) and event argument
extraction (EAE). In this paper, we check the reliability of EE evaluations and
identify three major pitfalls: (1) The data preprocessing discrepancy makes the
evaluation results on the same dataset not directly comparable, but the data
preprocessing details are not widely noted and specified in papers. (2) The
output space discrepancy of different model paradigms makes different-paradigm
EE models lack grounds for comparison and also leads to unclear mapping issues
between predictions and annotations. (3) The absence of pipeline evaluation of
many EAE-only works makes them hard to be directly compared with EE works and
may not well reflect the model performance in real-world pipeline scenarios. We
demonstrate the significant influence of these pitfalls through comprehensive
meta-analyses of recent papers and empirical experiments. To avoid these
pitfalls, we suggest a series of remedies, including specifying data
preprocessing, standardizing outputs, and providing pipeline evaluation
results. To help implement these remedies, we develop a consistent evaluation
framework OMNIEVENT, which can be obtained from
https://github.com/THU-KEG/OmniEvent.
- Abstract(参考訳): イベント抽出(EE)は、イベント検出(ED)とイベント引数抽出(EAE)という2つのサブタスクを含む、テキストからイベントを抽出するための重要なタスクである。
本稿では,ee評価の信頼性を確認し,(1)データプリプロセッシングの不一致により,同一データセット上での評価結果が直接的に比較されないが,データのプリプロセッシングの詳細は論文に広く記されていない,という3つの大きな落とし穴を特定した。
2) 異なるモデルパラダイムの出力空間の相違は、異なるパラダイムEEモデルに比較の根拠がなく、また予測とアノテーションの間の不明確なマッピング問題を引き起こす。
(3) 多くのEAEのみの作業に対するパイプライン評価の欠如は、EE作業と直接比較することが難しく、実際のパイプラインシナリオにおけるモデルパフォーマンスを十分に反映していない可能性がある。
本稿では,最近の論文の包括的メタアナリシスと実験実験を通じて,これらの落とし穴の影響を実証する。
これらの落とし穴を避けるために、データのプリプロセッシング、アウトプットの標準化、パイプライン評価結果の提供を含む一連の修正を提案する。
これらの改善を実現するために, https://github.com/THU-KEG/OmniEventから得られる一貫した評価フレームワークOMNIEVENTを開発した。
関連論文リスト
- Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Improve Event Extraction via Self-Training with Gradient Guidance [10.618929821822892]
本稿では、イベント抽出の進行を妨げる主な要因を克服するために、フィードバックによる自己評価(STF)フレームワークを提案する。
STFは,(1)既存のイベントアノテーションに基づいてトレーニングされたベースイベント抽出モデルと,(2)新しいイベント参照を擬似トレーニングサンプルとして予測するための大規模未ラベルコーパスと,(2)新しいイベントトリガ,引数,引数ロール,およびAMRグラフ内のそれらのパスを用いて互換性スコアを推定する新たなスコアリングモデルから構成される。
ACE05-E、ACE05-E+、EREを含む3つのベンチマークデータセットの実験結果
論文 参考訳(メタデータ) (2022-05-25T04:40:17Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Few-Shot Event Detection with Prototypical Amortized Conditional Random
Field [8.782210889586837]
イベント検出は、いくつかのサンプルで新しいイベントタイプを認識する必要がある場合、苦労する傾向がある。
本稿では,タスクを2部タグ付け方式で複数ショットタグ付け問題に変換する統一結合モデルを提案する。
ベンチマークデータセットFewEventで実験を行い、実験結果から、タグ付けに基づく手法は既存のパイプラインやジョイントラーニング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-12-04T01:11:13Z) - Let's Stop Incorrect Comparisons in End-to-end Relation Extraction! [13.207968737733196]
論文ではまず, 無効比較のいくつかのパターンを識別し, それらの伝播を避けるために記述する。
次に、最も一般的な誤りの影響を定量化し、それを評価し、ACE05上での最終的なRE性能を約5%過大評価する実験研究を提案する。
論文 参考訳(メタデータ) (2020-09-22T16:59:15Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。