論文の概要: Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages
- arxiv url: http://arxiv.org/abs/2210.11359v1
- Date: Thu, 20 Oct 2022 15:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:31:31.363692
- Title: Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages
- Title(参考訳): ヘイトスピーチ検出を非ソース言語に拡張するデータ効率戦略
- Authors: Paul R\"ottger, Debora Nozza, Federico Bianchi, Dirk Hovy
- Abstract要約: 殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
- 参考スコア(独自算出の注目度): 35.185808055004344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech is a global phenomenon, but most hate speech datasets so far
focus on English-language content. This hinders the development of more
effective hate speech detection models in hundreds of languages spoken by
billions across the world. More data is needed, but annotating hateful content
is expensive, time-consuming and potentially harmful to annotators. To mitigate
these issues, we explore data-efficient strategies for expanding hate speech
detection into under-resourced languages. In a series of experiments with mono-
and multilingual models across five non-English languages, we find that 1) a
small amount of target-language fine-tuning data is needed to achieve strong
performance, 2) the benefits of using more such data decrease exponentially,
and 3) initial fine-tuning on readily-available English data can partially
substitute target-language data and improve model generalisability. Based on
these findings, we formulate actionable recommendations for hate speech
detection in low-resource language settings.
- Abstract(参考訳): ヘイトスピーチは世界的な現象だが、ほとんどの場合、英語コンテンツに焦点を当てている。
これにより、世界中の何十億もの言語が話す、より効果的なヘイトスピーチ検出モデルの開発を妨げる。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価です。
これらの問題を緩和するために,ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略を検討する。
5つの非英語言語におけるモノ言語と多言語モデルの一連の実験で、
1) 高性能を実現するには, 少量のターゲット言語微調整データが必要である。
2以上のデータを使用する利点は指数関数的に減少し、
3) 容易に利用可能な英語データの初期微調整は、部分的にターゲット言語データを置き換えることができ、モデルの汎用性が向上する。
これらの結果に基づき,低リソース言語環境におけるヘイトスピーチ検出のための行動可能な推奨事項を定式化した。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Evaluating the Effectiveness of Natural Language Inference for Hate
Speech Detection in Languages with Limited Labeled Data [2.064612766965483]
ゼロおよび少数ショット設定で良好に機能する自然言語推論(NLI)モデルは、ヘイトスピーチ検出性能の恩恵を受ける。
対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-06-06T14:40:41Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。