論文の概要: Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2303.02513v1
- Date: Sat, 4 Mar 2023 22:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:09:58.751374
- Title: Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection
- Title(参考訳): 多言語ヘイトスピーチ検出のためのモデル非依存メタラーニング
- Authors: Md Rabiul Awal, Roy Ka-Wei Lee, Eshaan Tanwar, Tanmay Garg, Tanmoy
Chakraborty
- Abstract要約: ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
- 参考スコア(独自算出の注目度): 23.97444551607624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech in social media is a growing phenomenon, and detecting such toxic
content has recently gained significant traction in the research community.
Existing studies have explored fine-tuning language models (LMs) to perform
hate speech detection, and these solutions have yielded significant
performance. However, most of these studies are limited to detecting hate
speech only in English, neglecting the bulk of hateful content that is
generated in other languages, particularly in low-resource languages.
Developing a classifier that captures hate speech and nuances in a low-resource
language with limited data is extremely challenging. To fill the research gap,
we propose HateMAML, a model-agnostic meta-learning-based framework that
effectively performs hate speech detection in low-resource languages. HateMAML
utilizes a self-supervision strategy to overcome the limitation of data
scarcity and produces better LM initialization for fast adaptation to an unseen
target language (i.e., cross-lingual transfer) or other hate speech datasets
(i.e., domain generalization). Extensive experiments are conducted on five
datasets across eight different low-resource languages. The results show that
HateMAML outperforms the state-of-the-art baselines by more than 3% in the
cross-domain multilingual transfer setting. We also conduct ablation studies to
analyze the characteristics of HateMAML.
- Abstract(参考訳): ソーシャルメディアにおけるヘイトスピーチは成長する現象であり、このような有害なコンテンツの検出は研究コミュニティで最近大きな注目を集めている。
既存の研究では、ヘイトスピーチ検出を行うための微調整言語モデル(LM)が検討されており、これらのソリューションは大きなパフォーマンスをもたらしている。
しかし、これらの研究のほとんどは英語のみのヘイトスピーチの検出に限定されており、他の言語、特に低リソース言語で発生するヘイトスピーチコンテンツの大部分を無視している。
限られたデータで低リソース言語でヘイトスピーチとニュアンスをキャプチャする分類器の開発は非常に難しい。
研究ギャップを埋めるため,低リソース言語でのヘイトスピーチ検出を効果的に行うモデルに依存しないメタラーニングベースのフレームワークであるHateMAMLを提案する。
HateMAMLは、データ不足の限界を克服するためにセルフスーパービジョン戦略を利用し、未確認のターゲット言語(言語間移動)や他のヘイトスピーチデータセット(ドメイン一般化)への迅速な適応のために、より良いLM初期化を生成する。
8つの異なる低リソース言語にまたがる5つのデータセットに関する広範な実験が行われた。
その結果,HateMAMLはクロスドメイン多言語転送設定において,最先端のベースラインを3%以上上回っていることがわかった。
また,HateMAMLの特性分析のためのアブレーション研究も行った。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Multilingual HateCheck: Functional Tests for Multilingual Hate Speech
Detection Models [14.128029444990895]
HateCheck(MHC)は,多言語ヘイトスピーチ検出モデルのための機能テストスイートである。
MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。
我々は,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。
論文 参考訳(メタデータ) (2022-06-20T17:54:39Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。