論文の概要: LEMONADE: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World
- arxiv url: http://arxiv.org/abs/2506.00980v1
- Date: Sun, 01 Jun 2025 12:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.696954
- Title: LEMONADE: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World
- Title(参考訳): LEMONADE: 実世界向け多言語エキスパートアノテーション付き抽象イベントデータセット
- Authors: Sina J. Semnani, Pingyue Zhang, Wanyue Zhai, Haozhuo Li, Ryan Beauchamp, Trey Billing, Katayoun Kishi, Manling Li, Monica S. Lam,
- Abstract要約: 本稿では,20言語と171カ国にわたる39,786のイベントからなる大規模コンフリクトイベントデータセットLEMONADEを提案する。
本稿では,抽象イベント抽出(AEE)とそのサブタスク,抽象エンティティリンク(AEL)を紹介する。
我々はこれらのタスク上で様々な大規模言語モデル(LLM)を評価し、既存のゼロショットイベント抽出システムに適応し、ベンチマーク教師付きモデルを構築した。
- 参考スコア(独自算出の注目度): 15.910533768323132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents LEMONADE, a large-scale conflict event dataset comprising 39,786 events across 20 languages and 171 countries, with extensive coverage of region-specific entities. LEMONADE is based on a partially reannotated subset of the Armed Conflict Location & Event Data (ACLED), which has documented global conflict events for over a decade. To address the challenge of aggregating multilingual sources for global event analysis, we introduce abstractive event extraction (AEE) and its subtask, abstractive entity linking (AEL). Unlike conventional span-based event extraction, our approach detects event arguments and entities through holistic document understanding and normalizes them across the multilingual dataset. We evaluate various large language models (LLMs) on these tasks, adapt existing zero-shot event extraction systems, and benchmark supervised models. Additionally, we introduce ZEST, a novel zero-shot retrieval-based system for AEL. Our best zero-shot system achieves an end-to-end F1 score of 58.3%, with LLMs outperforming specialized event extraction models such as GoLLIE. For entity linking, ZEST achieves an F1 score of 45.7%, significantly surpassing OneNet, a state-of-the-art zero-shot baseline that achieves only 23.7%. However, these zero-shot results lag behind the best supervised systems by 20.1% and 37.0% in the end-to-end and AEL tasks, respectively, highlighting the need for further research.
- Abstract(参考訳): 本稿では,20言語と171カ国にわたる39,786のイベントからなる大規模コンフリクトイベントデータセットLEMONADEについて述べる。
LEMONADEはArmed Conflict Location & Event Data (ACLED)の部分的に再注釈されたサブセットに基づいている。
グローバルイベント分析のための多言語ソースの集約という課題に対処するために,抽象イベント抽出(AEE)とそのサブタスク,抽象エンティティリンク(AEL)を紹介する。
従来のスパンベースのイベント抽出とは違い,本手法は汎用的な文書理解を通じてイベント引数やエンティティを検出し,多言語データセット全体にわたって正規化する。
我々はこれらのタスク上で様々な大規模言語モデル(LLM)を評価し、既存のゼロショットイベント抽出システムに適応し、ベンチマーク教師付きモデルを構築した。
さらに,新たなゼロショット検索システムであるZESTを導入する。
我々の最良ゼロショットシステムは、エンドツーエンドのF1スコア58.3%を達成し、LLMはGoLLIEのような特別なイベント抽出モデルよりも優れています。
エンティティリンクでは、ZESTはF1スコアが45.7%に達し、最先端のゼロショットベースラインであるOneNetをはるかに上回っている。
しかし、これらのゼロショットの結果は、エンド・ツー・エンドのタスクでは20.1%、37.0%遅れており、さらなる研究の必要性が浮き彫りになっている。
関連論文リスト
- GENEVA: Benchmarking Generalizability for Event Argument Extraction with
Hundreds of Event Types and Argument Roles [77.05288144035056]
Event Argument extract (EAE)は、新しいイベントやドメインに対応するためのモデルの一般化性の改善に重点を置いている。
ACEやEREといった標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。
論文 参考訳(メタデータ) (2022-05-25T05:46:28Z) - Document-Level Event Argument Extraction by Conditional Generation [75.73327502536938]
イベント抽出は、長い間IEコミュニティで文レベルのタスクとして扱われてきた。
タスクを条件生成型イベントテンプレートとして定式化することで,ドキュメントレベルのニューラルイベント引数抽出モデルを提案する。
また、新しいドキュメントレベルのイベント抽出ベンチマークデータセットWikiEventsもコンパイルします。
論文 参考訳(メタデータ) (2021-04-13T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。