論文の概要: MAVEN: A Massive General Domain Event Detection Dataset
- arxiv url: http://arxiv.org/abs/2004.13590v2
- Date: Thu, 8 Oct 2020 09:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:59:49.152350
- Title: MAVEN: A Massive General Domain Event Detection Dataset
- Title(参考訳): MAVEN: 大規模な汎用ドメインイベント検出データセット
- Authors: Xiaozhi Wang, Ziqi Wang, Xu Han, Wangyi Jiang, Rong Han, Zhiyuan Liu,
Juanzi Li, Peng Li, Yankai Lin, Jie Zhou
- Abstract要約: イベント検出(ED)は、プレーンテキストからイベント知識を抽出する最初の、最も基本的なステップである。
既存のデータセットは、EDのさらなる開発を制限する問題を示す。
我々は,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。
- 参考スコア(独自算出の注目度): 56.00401399384715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event detection (ED), which means identifying event trigger words and
classifying event types, is the first and most fundamental step for extracting
event knowledge from plain text. Most existing datasets exhibit the following
issues that limit further development of ED: (1) Data scarcity. Existing
small-scale datasets are not sufficient for training and stably benchmarking
increasingly sophisticated modern neural methods. (2) Low coverage. Limited
event types of existing datasets cannot well cover general-domain events, which
restricts the applications of ED models. To alleviate these problems, we
present a MAssive eVENt detection dataset (MAVEN), which contains 4,480
Wikipedia documents, 118,732 event mention instances, and 168 event types.
MAVEN alleviates the data scarcity problem and covers much more general event
types. We reproduce the recent state-of-the-art ED models and conduct a
thorough evaluation on MAVEN. The experimental results show that existing ED
methods cannot achieve promising results on MAVEN as on the small datasets,
which suggests that ED in the real world remains a challenging task and
requires further research efforts. We also discuss further directions for
general domain ED with empirical analyses. The source code and dataset can be
obtained from https://github.com/THU-KEG/MAVEN-dataset.
- Abstract(参考訳): イベント検出(ed、event detection)とは、イベントトリガ語を識別し、イベントタイプを分類することであり、プレーンテキストからイベント知識を抽出するための第1ステップであり、最も基本的なステップである。
既存のデータセットのほとんどは、EDのさらなる開発を制限する次のような問題を示している。
既存の小規模データセットは、より洗練された現代的なニューラルメソッドのトレーニングや安定的なベンチマークには不十分である。
2)低い範囲である。
既存のデータセットの限られたイベントタイプは、edモデルのアプリケーションを制限する一般ドメインイベントを十分にカバーできない。
これらの問題を緩和するために,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。
MAVENはデータの不足を軽減し、より一般的なイベントタイプをカバーする。
我々は最近の最先端EDモデルを再現し、MAVENを徹底的に評価する。
実験の結果,既存のED手法では,MAVENの小さなデータセットのように有望な結果が得られず,実世界のEDは依然として困難な課題であり,さらなる研究が必要であることが示唆された。
また、実証分析による一般領域EDのさらなる方向性についても論じる。
ソースコードとデータセットはhttps://github.com/THU-KEG/MAVEN-datasetから取得できる。
関連論文リスト
- MAVEN-Fact: A Large-scale Event Factuality Detection Dataset [55.01875707021496]
我々は,MAVENデータセットに基づく大規模かつ高品質なEFDデータセットであるMAVEN-Factを紹介する。
MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。
MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-07-22T03:43:46Z) - MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation [104.6065882758648]
MAVEN-Argは、イベント検出、イベント引数抽出、イベント関係抽出をサポートする最初のオールインワンデータセットである。
EAEベンチマークでは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)EAEのすべてのタスク変種をサポートする包括的なアノテーションの3つの利点がある。
論文 参考訳(メタデータ) (2023-11-15T16:52:14Z) - MsPrompt: Multi-step Prompt Learning for Debiasing Few-shot Event
Detection [16.98619925632727]
イベント検出(ED)は、構造化されていないテキストでキートリガーワードを特定し、それに従ってイベントタイプを予測することを目的としている。
従来のEDモデルは、ラベル付きデータが不足している実際のアプリケーションに対応するには、データ不足が多すぎる。
本稿では,複数ステップのプロンプト学習モデル(MsPrompt)を提案する。
論文 参考訳(メタデータ) (2023-05-16T10:19:12Z) - Abnormal Event Detection via Hypergraph Contrastive Learning [54.80429341415227]
異常事象検出は多くの実アプリケーションにおいて重要な役割を果たす。
本稿では,分散異種情報ネットワークにおける異常事象検出問題について検討する。
AEHCLと呼ばれる新しいハイパーグラフコントラスト学習法が,異常事象のパターンをフルに捉えるために提案されている。
論文 参考訳(メタデータ) (2023-04-02T08:23:20Z) - MEE: A Novel Multilingual Event Extraction Dataset [62.80569691825534]
Event extractは、イベント参照とその引数をテキストから認識することを目的としている。
モデルトレーニングと評価のための高品質な多言語EEデータセットの欠如が主な障害となっている。
本稿では,8言語で50万以上のイベントを参照するアノテーションを提供する新しい多言語イベント抽出データセット(EE)を提案する。
論文 参考訳(メタデータ) (2022-11-11T02:01:41Z) - Event Detection Explorer: An Interactive Tool for Event Detection
Exploration [15.673794190575295]
イベント検出(ED)は自然言語処理において重要なタスクである。
本稿では,EDデータセットとモデル探索のためのインタラクティブで使いやすいツールであるEDエクスプローラーを提案する。
論文 参考訳(メタデータ) (2022-04-26T17:22:37Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - OntoED: Low-resource Event Detection with Ontology Embedding [19.126410765996077]
イベント検出(ED)は、所定のテキストからイベントトリガーワードを特定し、イベントタイプに分類することを目的としている。
EDへの現在のメソッドのほとんどは、トレーニングインスタンスに大きく依存しており、イベントタイプの相関をほとんど無視しています。
論文 参考訳(メタデータ) (2021-05-23T12:00:22Z) - Exathlon: A Benchmark for Explainable Anomaly Detection over Time Series [6.085662888748731]
本稿では,高次元時系列データを用いた説明可能な異常検出のための最初のベンチマークであるExathlonを提案する。
Exathlonは、Apache Sparkクラスタ上で大規模なストリーム処理ジョブを繰り返し実行する実際のデータトレースに基づいて構築されている。
各異常事例について、根本原因区間の接地真理ラベルと、延長効果区間の接地真理ラベルとを設ける。
論文 参考訳(メタデータ) (2020-10-10T19:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。