論文の概要: Evaluating the Effectiveness of Natural Language Inference for Hate
Speech Detection in Languages with Limited Labeled Data
- arxiv url: http://arxiv.org/abs/2306.03722v2
- Date: Sat, 10 Jun 2023 09:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 23:05:33.622333
- Title: Evaluating the Effectiveness of Natural Language Inference for Hate
Speech Detection in Languages with Limited Labeled Data
- Title(参考訳): 限定ラベル付き言語におけるヘイトスピーチ検出における自然言語推論の有効性の評価
- Authors: Janis Goldzycher, Moritz Preisig, Chantal Amrhein, Gerold Schneider
- Abstract要約: ゼロおよび少数ショット設定で良好に機能する自然言語推論(NLI)モデルは、ヘイトスピーチ検出性能の恩恵を受ける。
対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most research on hate speech detection has focused on English where a
sizeable amount of labeled training data is available. However, to expand hate
speech detection into more languages, approaches that require minimal training
data are needed. In this paper, we test whether natural language inference
(NLI) models which perform well in zero- and few-shot settings can benefit hate
speech detection performance in scenarios where only a limited amount of
labeled data is available in the target language. Our evaluation on five
languages demonstrates large performance improvements of NLI fine-tuning over
direct fine-tuning in the target language. However, the effectiveness of
previous work that proposed intermediate fine-tuning on English data is hard to
match. Only in settings where the English training data does not match the test
domain, can our customised NLI-formulation outperform intermediate fine-tuning
on English. Based on our extensive experiments, we propose a set of
recommendations for hate speech detection in languages where minimal labeled
training data is available.
- Abstract(参考訳): ヘイトスピーチ検出に関するほとんどの研究は、大量のラベル付きトレーニングデータが利用できる英語に焦点を当てている。
しかし、ヘイトスピーチ検出をより多くの言語に拡張するには、最小限のトレーニングデータを必要とするアプローチが必要である。
本稿では,対象言語で限られたラベル付きデータしか利用できない場合において,ゼロおよび少数ショット設定で良好に動作する自然言語推論(NLI)モデルが,ヘイトスピーチ検出性能に有用かどうかを検証する。
対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。
しかし、英語データにおける中間微調整を提案する以前の研究の有効性は一致しない。
英語のトレーニングデータがテスト領域と一致しない場合のみ、我々のカスタマイズされたNLI形式は英語の中間微調整よりも優れる。
そこで本研究では,ラベル付き学習データを最小限に抑える言語におけるヘイトスピーチ検出のための一連の推奨手法を提案する。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。