論文の概要: Extended Multilingual Protest News Detection -- Shared Task 1, CASE 2021
and 2022
- arxiv url: http://arxiv.org/abs/2211.11360v1
- Date: Mon, 21 Nov 2022 11:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:17:58.643678
- Title: Extended Multilingual Protest News Detection -- Shared Task 1, CASE 2021
and 2022
- Title(参考訳): 拡張多言語テストニュース検出-第1タスク共有 2021年と2022年
- Authors: Ali H\"urriyeto\u{g}lu, Osman Mutlu, F{\i}rat Duru\c{s}an, Onur Uca,
Alaeddin Sel\c{c}uk G\"urel, Benjamin Radford, Yaoyao Dai, Hansi
Hettiarachchi, Niklas Stoehr, Tadashi Nomoto, Milena Slavcheva, Francielle
Vargas, Aaqib Javid, Fatih Beyhan, Erdem Y\"or\"uk
- Abstract要約: ケース2022ワークショップは、ケース2021のテストデータを予測するために開発されたシステムに関する報告を受け入れている。
ケース2022の参加者が提出した最良のシステムは、ゼロショット設定で新しい言語に対して79.71から84.06 F1-macroを達成している。
- 参考スコア(独自算出の注目度): 0.6390904258458897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report results of the CASE 2022 Shared Task 1 on Multilingual Protest
Event Detection. This task is a continuation of CASE 2021 that consists of four
subtasks that are i) document classification, ii) sentence classification, iii)
event sentence coreference identification, and iv) event extraction. The CASE
2022 extension consists of expanding the test data with more data in previously
available languages, namely, English, Hindi, Portuguese, and Spanish, and
adding new test data in Mandarin, Turkish, and Urdu for Sub-task 1, document
classification. The training data from CASE 2021 in English, Portuguese and
Spanish were utilized. Therefore, predicting document labels in Hindi,
Mandarin, Turkish, and Urdu occurs in a zero-shot setting. The CASE 2022
workshop accepts reports on systems developed for predicting test data of CASE
2021 as well. We observe that the best systems submitted by CASE 2022
participants achieve between 79.71 and 84.06 F1-macro for new languages in a
zero-shot setting. The winning approaches are mainly ensembling models and
merging data in multiple languages. The best two submissions on CASE 2021 data
outperform submissions from last year for Subtask 1 and Subtask 2 in all
languages. Only the following scenarios were not outperformed by new
submissions on CASE 2021: Subtask 3 Portuguese \& Subtask 4 English.
- Abstract(参考訳): マルチリンガル・プロテストイベント検出におけるCASE 2022共有タスク1の結果を報告する。
この課題は、4つのサブタスクからなるケース2021の継続である。
i) 文書分類
ii) 文分類
三 事件文共参照識別、及び
iv) イベント抽出。
case 2022拡張は、テストデータを以前の利用可能な言語(英語、ヒンディー語、ポルトガル語、スペイン語)で拡張し、サブタスク1の文書分類のためにmandarin、トルコ語、urduで新しいテストデータを追加することで構成されている。
2021年症例の英語、ポルトガル語、スペイン語での訓練データを利用した。
したがって、ヒンディー語、マンダリン語、トルコ語、ウルドゥー語の文書ラベルの予測はゼロショット設定で行われる。
ケース2022ワークショップは、ケース2021のテストデータを予測するために開発されたシステムに関するレポートも受け入れる。
症例2022の参加者が提出した最良のシステムは,新しい言語をゼロショット設定で79.71から84.06F1-macroに到達している。
勝利したアプローチは、主に複数の言語でデータを統合するモデルとマージである。
case 2021のベスト2の投稿は、すべての言語で去年のsubtask 1とsubtask 2の投稿よりも優れています。
以下のシナリオは、2021年のケースで新たに提出された"Subtask 3 Portuguese \& Subtask 4 English"に勝るものではなかった。
関連論文リスト
- Event Causality Identification with Causal News Corpus -- Shared Task 3,
CASE 2022 [3.0775142635531685]
事象因果同定 2022 症例の共有タスクには2つのサブタスクが含まれていた。
サブタスク1は、ある文が因果関係を含むか否かを予測するために参加者に要求する。
サブタスク2では、参加者は因果文ごとに原因、効果、信号のスパンを特定する必要があった。
論文 参考訳(メタデータ) (2022-11-22T10:34:09Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - AMU-EURANOVA at CASE 2021 Task 1: Assessing the stability of
multilingual BERT [0.879504058268139]
サブタスク4、イベント情報抽出に焦点を当てた。
このサブタスクには小さなトレーニングデータセットがあり、このサブタスクを解決するために多言語BERTを微調整しました。
データセットの不安定性問題を調査し、緩和を試みた。
論文 参考訳(メタデータ) (2021-06-10T07:54:39Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - BUT-FIT at SemEval-2020 Task 5: Automatic detection of counterfactual
statements with deep pre-trained language representation models [6.853018135783218]
本稿では,BUT-FITによるSemEval-2020 Task 5: Modelling Causal Reasoning in Language: Detecting Counterfactualsについて述べる。
課題は、ある文が偽物を含むかどうかを検出することである。
どちらのサブタスクでも,RoBERTa LRMが最善を尽くすことがわかった。
論文 参考訳(メタデータ) (2020-07-28T11:16:11Z) - SemEval-2020 Task 12: Multilingual Offensive Language Identification in
Social Media (OffensEval 2020) [33.66689662526814]
ソーシャルメディアにおける多言語攻撃言語識別に関するSemEval-2020 Task 12の結果と主な成果を報告する(OffensEval 2020)。
OffensEval 2020は、SemEval-2020で最も人気のあるタスクの1つで、すべてのサブタスク、およびすべての言語で多くの参加者を集めている。
528チームが参加し、145チームが評価期間中にシステムを提出し、70チームがシステム説明書を提出した。
論文 参考訳(メタデータ) (2020-06-12T14:39:40Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。