論文の概要: TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction
- arxiv url: http://arxiv.org/abs/2311.09562v3
- Date: Thu, 6 Jun 2024 04:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:20:02.648542
- Title: TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction
- Title(参考訳): TextEE: イベント抽出におけるベンチマーク、再評価、リフレクション、今後の課題
- Authors: Kuan-Hao Huang, I-Hung Hsu, Tanmay Parekh, Zhiyu Xie, Zixuan Zhang, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng, Heng Ji,
- Abstract要約: イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。
TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
- 参考スコア(独自算出の注目度): 131.7684896032888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event extraction has gained considerable interest due to its wide-ranging applications. However, recent studies draw attention to evaluation issues, suggesting that reported scores may not accurately reflect the true performance. In this work, we identify and address evaluation challenges, including inconsistency due to varying data assumptions or preprocessing steps, the insufficiency of current evaluation frameworks that may introduce dataset or data split bias, and the low reproducibility of some previous approaches. To address these challenges, we present TextEE, a standardized, fair, and reproducible benchmark for event extraction. TextEE comprises standardized data preprocessing scripts and splits for 16 datasets spanning eight diverse domains and includes 14 recent methodologies, conducting a comprehensive benchmark reevaluation. We also evaluate five varied large language models on our TextEE benchmark and demonstrate how they struggle to achieve satisfactory performance. Inspired by our reevaluation results and findings, we discuss the role of event extraction in the current NLP era, as well as future challenges and insights derived from TextEE. We believe TextEE, the first standardized comprehensive benchmarking tool, will significantly facilitate future event extraction research.
- Abstract(参考訳): イベント抽出は広範に応用されているため、かなりの関心を集めている。
しかし、近年の研究は評価問題に注意を向けており、報告されたスコアが真のパフォーマンスを正確に反映していないことを示唆している。
本研究では,データ仮定や前処理ステップの違いによる不整合性,データセットやデータ分割バイアスを導入した現在の評価フレームワークの不整合性,過去のアプローチの再現性の低下など,評価上の課題を特定し,対処する。
これらの課題に対処するため、イベント抽出のための標準化された公正かつ再現可能なベンチマークであるTextEEを紹介します。
TextEEは標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
また、TextEEベンチマークで5つのさまざまな大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証しています。
再評価の結果と結果に触発されて,現在NLP時代におけるイベント抽出の役割と,TextEEから派生した今後の課題と洞察について議論した。
最初の標準化された総合的なベンチマークツールであるTextEEは、将来のイベント抽出研究を著しく促進するだろうと考えています。
関連論文リスト
- Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
我々は, ITR評価パイプラインの脆性に着目し, 概念の粒度に着目した。
粗くきめ細かなデータセット上でのVLMの性能を調べるため,摂動の分類を導入した。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T13:39:32Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - EvEval: A Comprehensive Evaluation of Event Semantics for Large Language
Models [31.704144542866636]
イベントは様々な文脈で発生の基本的な単位として機能する。
最近の研究は、イベントセマンティック処理に対処するために大きな言語モデル(LLM)を活用し始めている。
本稿では,イベントセマンティック処理における理解,推論,予測を包含する包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T15:55:40Z) - TeTIm-Eval: a novel curated evaluation data set for comparing
text-to-image models [1.1252184947601962]
テキスト・ツー・イメージ・モデルの評価と比較は難しい問題です。
本稿では,<i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i>i>i>i>i</i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i</i>i>i>i</i>i>i</i>i>i</i>
初期の実験結果から,ヒト判定の精度はCLIPスコアと完全に一致していることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-15T13:52:03Z) - On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。
この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文 参考訳(メタデータ) (2022-10-24T08:15:28Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。