Fugu-MT 論文翻訳(概要): CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News

論文の概要: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News

arxiv url: http://arxiv.org/abs/2404.12242v1
Date: Thu, 18 Apr 2024 15:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 12:12:06.872132
Title: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News
Title（参考訳）: CMNEE: オープンソースの中国軍報に基づく大規模文書レベルイベント抽出データセット
Authors: Mengna Zhu, Zijie Xu, Kaisheng Zeng, Kaiming Xiao, Mao Wang, Wenjun Ke, Hongbin Huang,
Abstract要約: 大規模で文書レベルのオープンソースである中国の軍事ニュースイベント抽出データセットであるCMNEEを提案する。 17,000の文書と29,223のイベントが含まれており、すべて軍事領域の事前定義されたスキーマに基づいて手動で注釈付けされている。我々は,複数の最先端イベント抽出モデルを体系的評価で再現する。
参考スコア（独自算出の注目度）: 4.8309547228489125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extracting structured event knowledge, including event triggers and corresponding arguments, from military texts is fundamental to many applications, such as intelligence analysis and decision assistance. However, event extraction in the military field faces the data scarcity problem, which impedes the research of event extraction models in this domain. To alleviate this problem, we propose CMNEE, a large-scale, document-level open-source Chinese Military News Event Extraction dataset. It contains 17,000 documents and 29,223 events, which are all manually annotated based on a pre-defined schema for the military domain including 8 event types and 11 argument role types. We designed a two-stage, multi-turns annotation strategy to ensure the quality of CMNEE and reproduced several state-of-the-art event extraction models with a systematic evaluation. The experimental results on CMNEE fall shorter than those on other domain datasets obviously, which demonstrates that event extraction for military domain poses unique challenges and requires further research efforts. Our code and data can be obtained from https://github.com/Mzzzhu/CMNEE.
Abstract（参考訳）: 軍事文書からイベントトリガーやそれに対応する議論を含む構造化されたイベント知識を抽出することは、インテリジェンス分析や意思決定支援といった多くの応用に不可欠である。しかし、軍事分野におけるイベント抽出は、この領域におけるイベント抽出モデルの研究を妨げるデータ不足の問題に直面している。この問題を軽減するために,大規模な文書レベルのオープンソースである中国軍事ニュースイベント抽出データセットであるCMNEEを提案する。 17,000のドキュメントと29,223のイベントが含まれており、いずれも8つのイベントタイプと11の引数ロールタイプを含む、軍事ドメインの事前定義されたスキーマに基づいて手動で注釈付けされている。我々はCMNEEの品質を保証するために2段階のマルチターンアノテーション戦略を設計し、系統的評価によりいくつかの最先端イベント抽出モデルを再現した。 CMNEEの実験結果は、明らかに他のドメインデータセットよりも短くなる。私たちのコードとデータはhttps://github.com/Mzzzhu/CMNEEから取得できます。

関連論文リスト

EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents [32.61252012805789]
イベント中心多文書要約(ECS)タスクは、複数の関連するニュース文書に基づいて、所定のイベントの簡潔で包括的な要約を生成することを目的としている。 EventSumデータセットを構築し,5,100件のイベントと57,984件のニュースドキュメントを含む。我々は、イベントリコール、Argument Recall、Causal Recall、Temporal Recallなどの特定のメトリクスを、対応する計算方法とともに設計し、評価を行った。
論文参考訳（メタデータ） (2024-12-16T14:29:49Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
MAVEN-Fact: A Large-scale Event Factuality Detection Dataset [55.01875707021496]
我々は,MAVENデータセットに基づく大規模かつ高品質なEFDデータセットであるMAVEN-Factを紹介する。 MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。 MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることを示す実験結果が得られた。
論文参考訳（メタデータ） (2024-07-22T03:43:46Z)
EXCEEDS: Extracting Complex Events as Connecting the Dots to Graphs in Scientific Domain [57.56639626657212]
我々は、科学領域に適したスキーマを備えた大規模マルチイベント文書レベルデータセットであるSciEventsを構築した。そこで我々は,グリッドマトリックスに高密度ナゲットを格納することで,新しいエンドツーエンドの科学的イベント抽出フレームワークEXCEEDSを提案する。実験により,SciEvents上でのEXCEEDSの最先端性能が実証された。
論文参考訳（メタデータ） (2024-06-20T07:50:37Z)
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-23T18:56:26Z)
Event-driven Real-time Retrieval in Web Search [15.235255100530496]
本稿では,リアルタイム検索の意図を表すイベント情報を用いてクエリを拡張する。マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。提案手法は既存の最先端のベースライン法よりも大幅に優れている。
論文参考訳（メタデータ） (2023-12-01T06:30:31Z)
From Simple to Complex: A Progressive Framework for Document-level Informative Argument Extraction [34.37013964529546]
イベント引数抽出(EAE)は、単一のドキュメントから複数のイベントの引数を抽出するモデルを必要とする。文書レベルEAEのための簡易・複雑プログレッシブフレームワークを提案する。提案手法は,F1 において SOTA を 1.4% 上回る性能を示し,EAE タスクにおいて有用であることを示す。
論文参考訳（メタデータ） (2023-10-25T04:38:02Z)
Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。最近のデータ拡張手法は文法的誤りの問題を無視することが多い。本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-16T16:52:07Z)
MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts [7.43647091073357]
イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。本稿では,ユーザレビュー,テキスト会話,電話会話に基づく,中国の大規模イベント検出データセットを提案する。
論文参考訳（メタデータ） (2022-11-25T05:05:29Z)
MEE: A Novel Multilingual Event Extraction Dataset [62.80569691825534]
Event extractは、イベント参照とその引数をテキストから認識することを目的としている。モデルトレーニングと評価のための高品質な多言語EEデータセットの欠如が主な障害となっている。本稿では,8言語で50万以上のイベントを参照するアノテーションを提供する新しい多言語イベント抽出データセット(EE)を提案する。
論文参考訳（メタデータ） (2022-11-11T02:01:41Z)
COfEE: A Comprehensive Ontology for Event Extraction from text, with an online annotation tool [3.8995911009078816]
イベント抽出(EE)は、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとする。 EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。 COfEEは、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリを含む2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されている。
論文参考訳（メタデータ） (2021-07-21T19:43:22Z)
MAVEN: A Massive General Domain Event Detection Dataset [56.00401399384715]
イベント検出(ED)は、プレーンテキストからイベント知識を抽出する最初の、最も基本的なステップである。既存のデータセットは、EDのさらなる開発を制限する問題を示す。我々は,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。
論文参考訳（メタデータ） (2020-04-28T15:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。