論文の概要: MINION: a Large-Scale and Diverse Dataset for Multilingual Event
Detection
- arxiv url: http://arxiv.org/abs/2211.05958v1
- Date: Fri, 11 Nov 2022 02:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:05:10.039951
- Title: MINION: a Large-Scale and Diverse Dataset for Multilingual Event
Detection
- Title(参考訳): MINION:多言語イベント検出のための大規模・多言語データセット
- Authors: Amir Pouran Ben Veyseh, Minh Van Nguyen, Franck Dernoncourt, and Thien
Huu Nguyen
- Abstract要約: Event Detection (ED) は、テキスト中のイベント参照のトリガーワードを識別し、分類するタスクである。
主な疑問は、既存のEDモデルが異なる言語でどれだけうまく機能するか、EDが他の言語でどの程度困難であるか、EDの知識とアノテーションが言語間でどの程度うまく伝達できるかである。
EDのための大規模多言語データセット(MINION)を導入し、8つの異なる言語でのイベントを一貫してアノテートする。
- 参考スコア(独自算出の注目度): 65.46122357928041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event Detection (ED) is the task of identifying and classifying trigger words
of event mentions in text. Despite considerable research efforts in recent
years for English text, the task of ED in other languages has been
significantly less explored. Switching to non-English languages, important
research questions for ED include how well existing ED models perform on
different languages, how challenging ED is in other languages, and how well ED
knowledge and annotation can be transferred across languages. To answer those
questions, it is crucial to obtain multilingual ED datasets that provide
consistent event annotation for multiple languages. There exist some
multilingual ED datasets; however, they tend to cover a handful of languages
and mainly focus on popular ones. Many languages are not covered in existing
multilingual ED datasets. In addition, the current datasets are often small and
not accessible to the public. To overcome those shortcomings, we introduce a
new large-scale multilingual dataset for ED (called MINION) that consistently
annotates events for 8 different languages; 5 of them have not been supported
by existing multilingual datasets. We also perform extensive experiments and
analysis to demonstrate the challenges and transferability of ED across
languages in MINION that in all call for more research effort in this area.
- Abstract(参考訳): Event Detection (ED) は、テキスト中のイベント参照のトリガーワードを識別し、分類するタスクである。
近年、英語テキストの研究が盛んに行われているが、他の言語におけるEDの課題は明らかに研究されていない。
非英語の言語に切り替える上で、EDの重要な研究課題は、既存のEDモデルが異なる言語でどれだけうまく機能するか、EDが他の言語でどの程度困難であるか、EDの知識とアノテーションが言語間でどの程度うまく伝達できるか、などである。
これらの質問に答えるためには、複数の言語に一貫したイベントアノテーションを提供する多言語edデータセットを得ることが不可欠である。
いくつかの多言語EDデータセットがあるが、それらは少数の言語をカバーし、主に人気のあるものに焦点を当てる傾向がある。
多くの言語は既存の多言語EDデータセットではカバーされていない。
加えて、現在のデータセットは小さく、一般にはアクセスできないことが多い。
これらの欠点を克服するために、ED(MINIONと呼ばれる)用の大規模多言語データセットを導入し、8つの異なる言語でのイベントを一貫してアノテートする。
我々はまた、この領域におけるさらなる研究努力を求める MINION における言語間のEDの課題と伝達可能性を示すために、広範な実験と分析を行った。
関連論文リスト
- Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。
その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文 参考訳(メタデータ) (2024-01-19T06:54:39Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - MEE: A Novel Multilingual Event Extraction Dataset [62.80569691825534]
Event extractは、イベント参照とその引数をテキストから認識することを目的としている。
モデルトレーニングと評価のための高品質な多言語EEデータセットの欠如が主な障害となっている。
本稿では,8言語で50万以上のイベントを参照するアノテーションを提供する新しい多言語イベント抽出データセット(EE)を提案する。
論文 参考訳(メタデータ) (2022-11-11T02:01:41Z) - MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain
Acronym Extraction [66.60031336330547]
様々なNLPアプリケーションには、頭字語とその拡張形式が必要である。
既存のAE研究の限界の1つは、それらが英語と特定のドメインに限定されていることである。
複数の言語やドメインにアノテートされたデータセットが欠落することは、この分野の研究を妨げる大きな問題となっている。
論文 参考訳(メタデータ) (2022-02-19T23:08:38Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。