論文の概要: Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data
- arxiv url: http://arxiv.org/abs/2505.14272v1
- Date: Tue, 20 May 2025 12:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.168479
- Title: Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data
- Title(参考訳): 限定ラベルデータを用いた言語間近接検索によるデータ効率の良いヘイト音声検出
- Authors: Faeze Ghorbanpour, Daryna Dementieva, Alexander Fraser,
- Abstract要約: 言語間の変換学習は、ラベル付きデータに制限のあるタスクのパフォーマンスを向上させることができる。
我々は、最寄りの検索を利用して、ターゲット言語における最小ラベル付きデータを増強する。
提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 59.30098850050971
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Considering the importance of detecting hateful language, labeled hate speech data is expensive and time-consuming to collect, particularly for low-resource languages. Prior work has demonstrated the effectiveness of cross-lingual transfer learning and data augmentation in improving performance on tasks with limited labeled data. To develop an efficient and scalable cross-lingual transfer learning approach, we leverage nearest-neighbor retrieval to augment minimal labeled data in the target language, thereby enhancing detection performance. Specifically, we assume access to a small set of labeled training instances in the target language and use these to retrieve the most relevant labeled examples from a large multilingual hate speech detection pool. We evaluate our approach on eight languages and demonstrate that it consistently outperforms models trained solely on the target language data. Furthermore, in most cases, our method surpasses the current state-of-the-art. Notably, our approach is highly data-efficient, retrieving as small as 200 instances in some cases while maintaining superior performance. Moreover, it is scalable, as the retrieval pool can be easily expanded, and the method can be readily adapted to new languages and tasks. We also apply maximum marginal relevance to mitigate redundancy and filter out highly similar retrieved instances, resulting in improvements in some languages.
- Abstract(参考訳): ヘイトフル言語を検出することの重要性を考えると、ラベル付きヘイトスピーチデータは高価で、特に低リソース言語では収集に時間がかかる。
従来の研究は、ラベル付きデータによるタスクの性能向上において、言語間移動学習とデータ拡張の有効性を実証してきた。
効率的でスケーラブルな言語間移動学習手法を開発するために,最寄りの検索を利用して最小ラベル付きデータを対象言語に拡張し,検出性能を向上する。
具体的には、ターゲット言語内のラベル付きトレーニングインスタンスの小さなセットにアクセスして、これらを使用して、多言語ヘイトスピーチ検出プールから最も関連性の高いラベル付きサンプルを検索する。
提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
さらに,ほとんどの場合,本手法は最先端技術を超えている。
特に、当社のアプローチは非常にデータ効率が高く、いくつかのケースでは200インスタンスまで検索でき、優れたパフォーマンスを維持しています。
さらに、検索プールを容易に拡張でき、新しい言語やタスクに容易に適用できるため、スケーラブルである。
また、冗長性を緩和し、非常に類似したインスタンスをフィルタし、いくつかの言語で改善する。
関連論文リスト
- Training Bilingual LMs with Data Constraints in the Targeted Language [17.623676545426477]
本研究では,事前学習データ不足を伴う対象言語における事前学習モデルの性能向上について検討する。
本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。
論文 参考訳(メタデータ) (2024-11-20T02:27:40Z) - How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Evaluating the Effectiveness of Natural Language Inference for Hate
Speech Detection in Languages with Limited Labeled Data [2.064612766965483]
ゼロおよび少数ショット設定で良好に機能する自然言語推論(NLI)モデルは、ヘイトスピーチ検出性能の恩恵を受ける。
対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-06-06T14:40:41Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。