論文の概要: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News
- arxiv url: http://arxiv.org/abs/2404.12242v1
- Date: Thu, 18 Apr 2024 15:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:12:06.872132
- Title: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News
- Title(参考訳): CMNEE: オープンソースの中国軍報に基づく大規模文書レベルイベント抽出データセット
- Authors: Mengna Zhu, Zijie Xu, Kaisheng Zeng, Kaiming Xiao, Mao Wang, Wenjun Ke, Hongbin Huang,
- Abstract要約: 大規模で文書レベルのオープンソースである中国の軍事ニュースイベント抽出データセットであるCMNEEを提案する。
17,000の文書と29,223のイベントが含まれており、すべて軍事領域の事前定義されたスキーマに基づいて手動で注釈付けされている。
我々は,複数の最先端イベント抽出モデルを体系的評価で再現する。
- 参考スコア(独自算出の注目度): 4.8309547228489125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured event knowledge, including event triggers and corresponding arguments, from military texts is fundamental to many applications, such as intelligence analysis and decision assistance. However, event extraction in the military field faces the data scarcity problem, which impedes the research of event extraction models in this domain. To alleviate this problem, we propose CMNEE, a large-scale, document-level open-source Chinese Military News Event Extraction dataset. It contains 17,000 documents and 29,223 events, which are all manually annotated based on a pre-defined schema for the military domain including 8 event types and 11 argument role types. We designed a two-stage, multi-turns annotation strategy to ensure the quality of CMNEE and reproduced several state-of-the-art event extraction models with a systematic evaluation. The experimental results on CMNEE fall shorter than those on other domain datasets obviously, which demonstrates that event extraction for military domain poses unique challenges and requires further research efforts. Our code and data can be obtained from https://github.com/Mzzzhu/CMNEE.
- Abstract(参考訳): 軍事文書からイベントトリガーやそれに対応する議論を含む構造化されたイベント知識を抽出することは、インテリジェンス分析や意思決定支援といった多くの応用に不可欠である。
しかし、軍事分野におけるイベント抽出は、この領域におけるイベント抽出モデルの研究を妨げるデータ不足の問題に直面している。
この問題を軽減するために,大規模な文書レベルのオープンソースである中国軍事ニュースイベント抽出データセットであるCMNEEを提案する。
17,000のドキュメントと29,223のイベントが含まれており、いずれも8つのイベントタイプと11の引数ロールタイプを含む、軍事ドメインの事前定義されたスキーマに基づいて手動で注釈付けされている。
我々はCMNEEの品質を保証するために2段階のマルチターンアノテーション戦略を設計し、系統的評価によりいくつかの最先端イベント抽出モデルを再現した。
CMNEEの実験結果は、明らかに他のドメインデータセットよりも短くなる。
私たちのコードとデータはhttps://github.com/Mzzzhu/CMNEEから取得できます。
関連論文リスト
- Training-free Anomaly Event Detection via LLM-guided Symbolic Pattern Discovery [70.75963253876628]
異常事象検出は、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
オープンセットオブジェクト検出とシンボリック回帰を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents [32.61252012805789]
イベント中心多文書要約(ECS)タスクは、複数の関連するニュース文書に基づいて、所定のイベントの簡潔で包括的な要約を生成することを目的としている。
EventSumデータセットを構築し,5,100件のイベントと57,984件のニュースドキュメントを含む。
我々は、イベントリコール、Argument Recall、Causal Recall、Temporal Recallなどの特定のメトリクスを、対応する計算方法とともに設計し、評価を行った。
論文 参考訳(メタデータ) (2024-12-16T14:29:49Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - MAVEN-Fact: A Large-scale Event Factuality Detection Dataset [55.01875707021496]
我々は,MAVENデータセットに基づく大規模かつ高品質なEFDデータセットであるMAVEN-Factを紹介する。
MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。
MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-07-22T03:43:46Z) - EXCEEDS: Extracting Complex Events as Connecting the Dots to Graphs in Scientific Domain [57.56639626657212]
我々は、科学領域に適したスキーマを備えた大規模マルチイベント文書レベルデータセットであるSciEventsを構築した。
そこで我々は,グリッドマトリックスに高密度ナゲットを格納することで,新しいエンドツーエンドの科学的イベント抽出フレームワークEXCEEDSを提案する。
実験により,SciEvents上でのEXCEEDSの最先端性能が実証された。
論文 参考訳(メタデータ) (2024-06-20T07:50:37Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Event-driven Real-time Retrieval in Web Search [15.235255100530496]
本稿では,リアルタイム検索の意図を表すイベント情報を用いてクエリを拡張する。
マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。
提案手法は既存の最先端のベースライン法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-01T06:30:31Z) - MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous
Informal Texts [7.43647091073357]
イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。
本稿では,ユーザレビュー,テキスト会話,電話会話に基づく,中国の大規模イベント検出データセットを提案する。
論文 参考訳(メタデータ) (2022-11-25T05:05:29Z) - MEE: A Novel Multilingual Event Extraction Dataset [62.80569691825534]
Event extractは、イベント参照とその引数をテキストから認識することを目的としている。
モデルトレーニングと評価のための高品質な多言語EEデータセットの欠如が主な障害となっている。
本稿では,8言語で50万以上のイベントを参照するアノテーションを提供する新しい多言語イベント抽出データセット(EE)を提案する。
論文 参考訳(メタデータ) (2022-11-11T02:01:41Z) - COfEE: A Comprehensive Ontology for Event Extraction from text, with an
online annotation tool [3.8995911009078816]
イベント抽出(EE)は、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとする。
EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。
COfEEは、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリを含む2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されている。
論文 参考訳(メタデータ) (2021-07-21T19:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。