論文の概要: A Reevaluation of Event Extraction: Past, Present, and Future Challenges
- arxiv url: http://arxiv.org/abs/2311.09562v1
- Date: Thu, 16 Nov 2023 04:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:39:29.010660
- Title: A Reevaluation of Event Extraction: Past, Present, and Future Challenges
- Title(参考訳): イベント抽出の再評価 -過去・現在・将来の課題-
- Authors: Kuan-Hao Huang, I-Hung Hsu, Tanmay Parekh, Zhiyu Xie, Zixuan Zhang,
Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng, Heng Ji
- Abstract要約: イベント抽出は近年、多くの応用の可能性から多くの注目を集めている。
最近の研究では、いくつかの評価課題が観察されており、報告されたスコアは真のパフォーマンスを反映していない可能性があることを示唆している。
イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTextEEを提案する。
- 参考スコア(独自算出の注目度): 136.72375997306673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event extraction has attracted much attention in recent years due to its
potential for many applications. However, recent studies observe some
evaluation challenges, suggesting that reported scores might not reflect the
true performance. In this work, we first identify and discuss these evaluation
challenges, including the unfair comparisons resulting from different
assumptions about data or different data preprocessing steps, the
incompleteness of the current evaluation framework leading to potential dataset
bias or data split bias, and low reproducibility of prior studies. To address
these challenges, we propose TextEE, a standardized, fair, and reproducible
benchmark for event extraction. TextEE contains standardized data preprocessing
scripts and splits for more than ten datasets across different domains. In
addition, we aggregate and re-implement over ten event extraction approaches
published in recent years and conduct a comprehensive reevaluation. Finally, we
explore the capability of large language models in event extraction and discuss
some future challenges. We expect TextEE will serve as a reliable benchmark for
event extraction, facilitating future research in the field.
- Abstract(参考訳): イベント抽出は近年、多くの応用の可能性から多くの注目を集めている。
しかし、近年の研究では評価課題がいくつか見受けられ、報告されたスコアが真のパフォーマンスを反映していない可能性が示唆されている。
本研究では,データやデータ前処理ステップの異なる仮定による不公平比較,潜在的なデータセットバイアスやデータ分割バイアスにつながる現在の評価フレームワークの不完全性,事前研究の再現性低下など,評価課題を最初に特定し,議論する。
これらの課題に対処するため、イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTextEEを提案する。
TextEEには標準化されたデータ前処理スクリプトと、異なるドメインにまたがる10以上のデータセットの分割が含まれている。
さらに,近年公開された10以上のイベント抽出アプローチを集約し,再実装し,包括的な再評価を行う。
最後に,イベント抽出における大規模言語モデルの能力について検討し,今後の課題について考察する。
TextEEはイベント抽出のための信頼性の高いベンチマークとして機能し、この分野における今後の研究を促進すると期待しています。
関連論文リスト
- Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。
時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。
標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
論文 参考訳(メタデータ) (2024-10-04T13:03:43Z) - Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T13:39:32Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - EvEval: A Comprehensive Evaluation of Event Semantics for Large Language
Models [31.704144542866636]
イベントは様々な文脈で発生の基本的な単位として機能する。
最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。
本稿では,イベントセマンティック処理における理解,推論,予測を包含する包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T15:55:40Z) - TeTIm-Eval: a novel curated evaluation data set for comparing
text-to-image models [1.1252184947601962]
テキスト・ツー・イメージ・モデルの評価と比較は難しい問題です。
本稿では,<i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i>i>i>i>i</i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i</i>i>i>i</i>i>i</i>i>i</i>
初期の実験結果から,ヒト判定の精度はCLIPスコアと完全に一致していることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-15T13:52:03Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。