論文の概要: Fine-tuning of Pre-trained Transformers for Hate, Offensive, and Profane
Content Detection in English and Marathi
- arxiv url: http://arxiv.org/abs/2110.12687v1
- Date: Mon, 25 Oct 2021 07:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 13:37:27.413965
- Title: Fine-tuning of Pre-trained Transformers for Hate, Offensive, and Profane
Content Detection in English and Marathi
- Title(参考訳): 英語とマラーティー語におけるヘイト・アパルト・プロパンコンテンツ検出のための事前学習トランスフォーマーの微調整
- Authors: Anna Glazkova, Michael Kadantsev and Maksim Glazkov
- Abstract要約: 本稿では,英語とインド・アーリア語におけるHate Speech and Offensive Content Identificationのために開発されたニューラルモデルについて述べる。
英語のサブタスクに対して,ヘイトスピーチ検出のための追加コーパスが微調整変圧器モデルに与える影響について検討する。
Marathiタスクに対しては,Language-Agnostic BERT Sentence Embedding (LaBSE)に基づくシステムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes neural models developed for the Hate Speech and
Offensive Content Identification in English and Indo-Aryan Languages Shared
Task 2021. Our team called neuro-utmn-thales participated in two tasks on
binary and fine-grained classification of English tweets that contain hate,
offensive, and profane content (English Subtasks A & B) and one task on
identification of problematic content in Marathi (Marathi Subtask A). For
English subtasks, we investigate the impact of additional corpora for hate
speech detection to fine-tune transformer models. We also apply a one-vs-rest
approach based on Twitter-RoBERTa to discrimination between hate, profane and
offensive posts. Our models ranked third in English Subtask A with the F1-score
of 81.99% and ranked second in English Subtask B with the F1-score of 65.77%.
For the Marathi tasks, we propose a system based on the Language-Agnostic BERT
Sentence Embedding (LaBSE). This model achieved the second result in Marathi
Subtask A obtaining an F1 of 88.08%.
- Abstract(参考訳): 本稿では,Hate Speech and Offensive Content Identification in English and Indo-Aryan Languages Shared Task 2021について述べる。
neuro-utmn-thalesというチームは、ヘイト、アグレッシブ、プロパンを含む英語ツイートのバイナリときめ細かい分類(英語サブタスクa&b)と、マラティ(marathiサブタスクa)における問題コンテンツの識別に関する2つのタスクに参加しました。
英語のサブタスクに対して,ヘイトスピーチ検出のための追加コーパスが微調整変圧器モデルに与える影響について検討する。
また、Twitter-RoBERTaをベースとしたワンストップアプローチをヘイト、プロファン、攻撃的な投稿の差別にも適用します。
我々のモデルは、F1スコアが81.99%、F1スコアが65.77%の英語Subtask Bで3位となった。
Marathiタスクに対しては,Language-Agnostic BERT Sentence Embedding (LaBSE)に基づくシステムを提案する。
このモデルはマラティサブタスクaの2番目の結果を達成し、88.08%のf1を得た。
関連論文リスト
- Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Multilingual Hate Speech and Offensive Content Detection using Modified
Cross-entropy Loss [0.0]
大規模な言語モデルは大量のデータに基づいてトレーニングされており、コンテキスト埋め込みも利用しています。
データのバランスもよくないので、修正されたクロスエントロピー損失を使ってこの問題に対処しました。
我々のチーム(HNLP)は、それぞれ英語サブタスクAと英語サブタスクBで0.808、0.639のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2022-02-05T20:31:40Z) - Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive
Content Identification in English and Indo-Aryan Languages [4.267837363677351]
本稿では,英語,ヒンディー語,マラタイ語のHASOCサブトラックについて述べる。
データセットはTwitterから集められた。
タスクAの最良の分類アルゴリズムのパフォーマンスは、マラタイ、ヒンディー語、英語でそれぞれ0.91、0.78、0.83である。
論文 参考訳(メタデータ) (2021-12-17T03:28:54Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages [2.927129789938848]
HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
論文 参考訳(メタデータ) (2021-08-12T19:02:53Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。