論文の概要: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News
- arxiv url: http://arxiv.org/abs/2404.12242v1
- Date: Thu, 18 Apr 2024 15:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:12:06.872132
- Title: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News
- Title(参考訳): CMNEE: オープンソースの中国軍報に基づく大規模文書レベルイベント抽出データセット
- Authors: Mengna Zhu, Zijie Xu, Kaisheng Zeng, Kaiming Xiao, Mao Wang, Wenjun Ke, Hongbin Huang,
- Abstract要約: 大規模で文書レベルのオープンソースである中国の軍事ニュースイベント抽出データセットであるCMNEEを提案する。
17,000の文書と29,223のイベントが含まれており、すべて軍事領域の事前定義されたスキーマに基づいて手動で注釈付けされている。
我々は,複数の最先端イベント抽出モデルを体系的評価で再現する。
- 参考スコア(独自算出の注目度): 4.8309547228489125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured event knowledge, including event triggers and corresponding arguments, from military texts is fundamental to many applications, such as intelligence analysis and decision assistance. However, event extraction in the military field faces the data scarcity problem, which impedes the research of event extraction models in this domain. To alleviate this problem, we propose CMNEE, a large-scale, document-level open-source Chinese Military News Event Extraction dataset. It contains 17,000 documents and 29,223 events, which are all manually annotated based on a pre-defined schema for the military domain including 8 event types and 11 argument role types. We designed a two-stage, multi-turns annotation strategy to ensure the quality of CMNEE and reproduced several state-of-the-art event extraction models with a systematic evaluation. The experimental results on CMNEE fall shorter than those on other domain datasets obviously, which demonstrates that event extraction for military domain poses unique challenges and requires further research efforts. Our code and data can be obtained from https://github.com/Mzzzhu/CMNEE.
- Abstract(参考訳): 軍事文書からイベントトリガーやそれに対応する議論を含む構造化されたイベント知識を抽出することは、インテリジェンス分析や意思決定支援といった多くの応用に不可欠である。
しかし、軍事分野におけるイベント抽出は、この領域におけるイベント抽出モデルの研究を妨げるデータ不足の問題に直面している。
この問題を軽減するために,大規模な文書レベルのオープンソースである中国軍事ニュースイベント抽出データセットであるCMNEEを提案する。
17,000のドキュメントと29,223のイベントが含まれており、いずれも8つのイベントタイプと11の引数ロールタイプを含む、軍事ドメインの事前定義されたスキーマに基づいて手動で注釈付けされている。
我々はCMNEEの品質を保証するために2段階のマルチターンアノテーション戦略を設計し、系統的評価によりいくつかの最先端イベント抽出モデルを再現した。
CMNEEの実験結果は、明らかに他のドメインデータセットよりも短くなる。
私たちのコードとデータはhttps://github.com/Mzzzhu/CMNEEから取得できます。
関連論文リスト
- AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [100.14685774661959]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Event-driven Real-time Retrieval in Web Search [15.235255100530496]
本稿では,リアルタイム検索の意図を表すイベント情報を用いてクエリを拡張する。
マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。
提案手法は既存の最先端のベースライン法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-01T06:30:31Z) - From Simple to Complex: A Progressive Framework for Document-level
Informative Argument Extraction [34.37013964529546]
イベント引数抽出(EAE)は、単一のドキュメントから複数のイベントの引数を抽出するモデルを必要とする。
文書レベルEAEのための簡易・複雑プログレッシブフレームワークを提案する。
提案手法は,F1 において SOTA を 1.4% 上回る性能を示し,EAE タスクにおいて有用であることを示す。
論文 参考訳(メタデータ) (2023-10-25T04:38:02Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous
Informal Texts [7.43647091073357]
イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。
本稿では,ユーザレビュー,テキスト会話,電話会話に基づく,中国の大規模イベント検出データセットを提案する。
論文 参考訳(メタデータ) (2022-11-25T05:05:29Z) - MEE: A Novel Multilingual Event Extraction Dataset [62.80569691825534]
Event extractは、イベント参照とその引数をテキストから認識することを目的としている。
モデルトレーニングと評価のための高品質な多言語EEデータセットの欠如が主な障害となっている。
本稿では,8言語で50万以上のイベントを参照するアノテーションを提供する新しい多言語イベント抽出データセット(EE)を提案する。
論文 参考訳(メタデータ) (2022-11-11T02:01:41Z) - Title2Event: Benchmarking Open Event Extraction with a Large-scale
Chinese Title Dataset [19.634367718707857]
イベントタイプを制限せずにオープンイベント抽出をベンチマークする大規模文レベルデータセットであるTitle2Eventを提示する。
Title2Eventには42,000以上のニュースタイトルがあり、34のトピックが中国のWebページから集められている。
私たちの知る限りでは、これは現在、オープンイベント抽出のための中国最大の手動注釈付きデータセットである。
論文 参考訳(メタデータ) (2022-11-02T04:39:36Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - COfEE: A Comprehensive Ontology for Event Extraction from text, with an
online annotation tool [3.8995911009078816]
イベント抽出(EE)は、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとする。
EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。
COfEEは、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリを含む2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されている。
論文 参考訳(メタデータ) (2021-07-21T19:43:22Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z) - MAVEN: A Massive General Domain Event Detection Dataset [56.00401399384715]
イベント検出(ED)は、プレーンテキストからイベント知識を抽出する最初の、最も基本的なステップである。
既存のデータセットは、EDのさらなる開発を制限する問題を示す。
我々は,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。