論文の概要: AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in
Immigration-Related Web News Comments Using Transformers and Statistical
Models
- arxiv url: http://arxiv.org/abs/2111.04530v1
- Date: Mon, 8 Nov 2021 14:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 21:17:55.946559
- Title: AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in
Immigration-Related Web News Comments Using Transformers and Statistical
Models
- Title(参考訳): IberleF-2021 DETOXISタスクにおけるAI-UPV:トランスフォーマと統計モデルを用いた移民関連Webニュースコメントの毒性検出
- Authors: Angel Felipe Magnoss\~ao de Paula and Ipek Baris Schlicht
- Abstract要約: 我々は,Webニュース記事に対するコメントにおいて,xenophobiaを検出するための正確なモデルを実装した。
我々はF1スコア0.5996で第1タスク2オフィシャルランキング3位を獲得し、CEM0.7142で第2タスク2オフィシャルランキング6位を獲得した。
その結果, (i) BERTモデルはテキストコメントにおける毒性検出の統計モデルよりも優れた結果が得られること, (ii) 単言語BERTモデルはテキストコメントにおける毒性検出における多言語BERTモデルよりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our participation in the DEtection of TOXicity in
comments In Spanish (DETOXIS) shared task 2021 at the 3rd Workshop on Iberian
Languages Evaluation Forum. The shared task is divided into two related
classification tasks: (i) Task 1: toxicity detection and; (ii) Task 2: toxicity
level detection. They focus on the xenophobic problem exacerbated by the spread
of toxic comments posted in different online news articles related to
immigration. One of the necessary efforts towards mitigating this problem is to
detect toxicity in the comments. Our main objective was to implement an
accurate model to detect xenophobia in comments about web news articles within
the DETOXIS shared task 2021, based on the competition's official metrics: the
F1-score for Task 1 and the Closeness Evaluation Metric (CEM) for Task 2. To
solve the tasks, we worked with two types of machine learning models: (i)
statistical models and (ii) Deep Bidirectional Transformers for Language
Understanding (BERT) models. We obtained our best results in both tasks using
BETO, an BERT model trained on a big Spanish corpus. We obtained the 3rd place
in Task 1 official ranking with the F1-score of 0.5996, and we achieved the 6th
place in Task 2 official ranking with the CEM of 0.7142. Our results suggest:
(i) BERT models obtain better results than statistical models for toxicity
detection in text comments; (ii) Monolingual BERT models have an advantage over
multilingual BERT models in toxicity detection in text comments in their
pre-trained language.
- Abstract(参考訳): 本稿では,イベリア語評価フォーラム第3回ワークショップにおいて,スペイン語のコメントにおけるTOXicity検出(DETOXIS)の参加について述べる。
共有タスクは2つの関連する分類タスクに分けられる。
(i) タスク1: 毒性の検出及び
(ii)タスク2:毒性レベル検出。
彼らは、移民に関する様々なオンラインニュース記事に投稿された有害なコメントの拡散によって悪化する外国人嫌悪問題に焦点を当てている。
この問題を軽減するために必要な取り組みの1つは、コメントの毒性を検出することである。
本研究の目的は,第1タスクのF1スコアと第2タスクのCEM(Closeness Evaluation Metric)に基づいて,DeTOXIS共有タスク2021のウェブニュース記事に対するコメントにおいて,クセノフォビアを検出するための正確なモデルを実装することである。
タスクを解決するために、私たちは2つのタイプの機械学習モデルに取り組みました。
(i)統計モデル及び統計モデル
(II)言語理解モデルのための双方向変換器(BERT)。
スペインの大きなコーパスでトレーニングされたBERTモデルであるBETOを用いて、両方のタスクで最高の結果を得た。
我々はF1スコア0.5996で第1タスク2オフィシャルランキング3位を獲得し、CEM0.7142で第2タスク2オフィシャルランキング6位を獲得した。
私たちの結果は
(i)BERTモデルは、テキストコメントにおける毒性検出のための統計モデルよりも優れた結果を得る。
(II)単言語BERTモデルは、事前訓練された言語におけるテキストコメントの毒性検出において、多言語BERTモデルよりも有利である。
関連論文リスト
- TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection [5.942385193284472]
言語間感情検出により,グローバルな傾向,世論,社会現象を大規模に分析することができる。
我々のシステムは0.16F1スコアの絶対値でベースラインを上回り、競合するシステムの中では2位にランクインした。
論文 参考訳(メタデータ) (2024-05-27T12:47:40Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Sexism Prediction in Spanish and English Tweets Using Monolingual and
Multilingual BERT and Ensemble Models [0.0]
本研究では、多言語・単言語BERTとデータポイントの翻訳とアンサンブル戦略を用いて、性差別の識別と分類を英語とスペイン語で行うシステムを提案する。
論文 参考訳(メタデータ) (2021-11-08T15:01:06Z) - UPB at SemEval-2021 Task 5: Virtual Adversarial Training for Toxic Spans
Detection [0.7197592390105455]
Semeval-2021, Task 5 - Toxic Spans DetectionはJigsaw Unintended Biasデータセットのサブセットの新たなアノテーションに基づいている。
このタスクでは、参加者はメッセージに有害な短いコメントで文字スパンを自動的に検出しなければならなかった。
本モデルは,トランスフォーマーベースモデルの微調整過程において,半教師付き環境で仮想適応トレーニングを適用することを検討する。
論文 参考訳(メタデータ) (2021-04-17T19:42:12Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。