論文の概要: Comparison of Modern Multilingual Text Embedding Techniques for Hate Speech Detection Task
- arxiv url: http://arxiv.org/abs/2604.14907v1
- Date: Thu, 16 Apr 2026 11:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.876279
- Title: Comparison of Modern Multilingual Text Embedding Techniques for Hate Speech Detection Task
- Title(参考訳): ヘイト音声検出タスクにおける現代多言語テキスト埋め込み手法の比較
- Authors: Evaldas Vaiciukynas, Paulius Danenas, Linas Ablonskis, Algirdas Sukys, Edgaras Dambrauskas, Voldemaras Zitkus, Rita Butkiene, Rimantas Butleris,
- Abstract要約: 我々は、ニュースポータルやソーシャルネットワークから派生したリトアニアのヘイトスピーチコーパスであるLtHateを紹介する。
統一Pythonパイプラインを使用して,LtHate,RuToxic,EnSupersetの6つのモダン多言語エンコーダ(potion, gemma, bge, Snow, jina, e5)をベンチマークした。
各埋め込みにおいて,64次元特徴ベクトルに対する主成分分析 (PCA) の圧縮を伴わず,一級HBOS異常検出器と二級CatBoostの両方を訓練する。
すべてのデータセットにまたがって、2つのクラスの教師付きモデルが一貫して、1つのクラスの異常検出を大幅に上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online hate speech and abusive language pose a growing challenge for content moderation, especially in multilingual settings and for low-resource languages such as Lithuanian. This paper investigates to what extent modern multilingual sentence embedding models can support accurate hate speech detection in Lithuanian, Russian, and English, and how their performance depends on downstream modeling choices and feature dimensionality. We introduce LtHate, a new Lithuanian hate speech corpus derived from news portals and social networks, and benchmark six modern multilingual encoders (potion, gemma, bge, snow, jina, e5) on LtHate, RuToxic, and EnSuperset using a unified Python pipeline. For each embedding, we train both a one class HBOS anomaly detector and a two class CatBoost classifier, with and without principal component analysis (PCA) compression to 64-dimensional feature vectors. Across all datasets, two class supervised models consistently and substantially outperform one class anomaly detection, with the best configurations achieving up to 80.96% accuracy and AUC ROC of 0.887 in Lithuanian (jina), 92.19% accuracy and AUC ROC of 0.978 in Russian (e5), and 77.21% accuracy and AUC ROC of 0.859 in English (e5 with PCA). PCA compression preserves almost all discriminative power in the supervised setting, while showing some negative impact for the unsupervised anomaly detection case. These results demonstrate how modern multilingual sentence embeddings combined with gradient boosted decision trees provide robust soft-computing solutions for multilingual hate speech detection applications.
- Abstract(参考訳): オンラインヘイトスピーチや乱用言語は、コンテンツモデレーション、特に多言語設定やリトアニアなどの低リソース言語において、ますます困難になっている。
本稿では、リトアニア語、ロシア語、英語における正確なヘイトスピーチ検出を支援する現代多言語文埋め込みモデルの有効性と、その性能が下流モデル選択と特徴次元にどのように依存するかを検討する。
我々は、ニュースポータルやソーシャルネットワークから派生したリトアニアのヘイトスピーチコーパスであるLtHateを紹介し、LtHate、RuToxic、EnSupersetの6つの現代多言語エンコーダ(potion, gemma, bge, snow, jina, e5)を統一Pythonパイプラインを使用してベンチマークする。
各埋め込みにおいて,64次元特徴ベクトルに対する主成分分析 (PCA) の圧縮を伴わず,一級HBOS異常検出器と二級CatBoost分類器の両方を訓練する。
すべてのデータセットにおいて、2つのクラス管理されたモデルが1つのクラス異常の検出を一貫して上回り、最高の構成はリトアニア語で80.96%の精度、リトアニア語で0.887のAUC ROC、ロシア語で92.19%の精度、ロシア語で0.978のAUC ROC(e5)、英語で77.21%の精度、英語で0.859のAUC ROC(e5とPCA)である。
PCA圧縮は、教師なしの異常検出ケースに対して負の影響を示しながら、教師なし設定におけるほぼ全ての識別力を保持する。
これらの結果は、現代多言語文の埋め込みと勾配向上決定木の組み合わせが、多言語ヘイトスピーチ検出アプリケーションに頑健なソフトコンピューティングソリューションを提供することを示す。
関連論文リスト
- Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - Multilingual Hate Speech Detection in Social Media Using Translation-Based Approaches with Large Language Models [4.66584517664999]
キーワードフィルタリングにより収集した英語,ウルドゥー語,スペイン語で10,193ツイートのトリリンガルデータセットを導入する。
GPT-3.5 Turbo と Qwen 2.5 72B をアテンション層に統合することで,高い性能を実現する。
我々のフレームワークは、多言語ヘイトスピーチ検出のための堅牢なソリューションを提供し、世界中のより安全なデジタルコミュニティを育む。
論文 参考訳(メタデータ) (2025-06-09T18:53:56Z) - Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。
実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-09T16:00:01Z) - Evaluation of Hate Speech Detection Using Large Language Models and Geographical Contextualization [0.0]
本研究では,多言語および多様な地理的文脈におけるヘイトスピーチ検出におけるLLMの性能について,系統的に検討した。
Llama2 (13b)、Codellama (7b)、DeepSeekCoder (6.7b)の3つの最先端LCMを評価した。
コーデラマは70.6%、F1スコアは52.18%、DeepSeekCoderは265カ所中63カ所を正確に検出した。
論文 参考訳(メタデータ) (2025-02-26T22:59:36Z) - Code-Mixed Telugu-English Hate Speech Detection [0.0]
本研究では,TeleguHateBERT,HateBERT,DeBERTa,Muril,IndicBERT,Roberta,Hindi-Abusive-MuRILなどのトランスフォーマーモデルを用いて,Teluguにおけるヘイトスピーチの分類を行った。
低ランク適応(LoRA)を用いてこれらのモデルを微調整し、効率と性能を最適化する。
Google Translateを使ってTeluguのテキストを英語に翻訳し、分類精度への影響を評価する。
論文 参考訳(メタデータ) (2025-02-15T02:03:13Z) - HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models [0.0]
ヘイトスピーチ(Hate speech)は、個人やグループに対する軽蔑的または差別的な言語をターゲットにした、言語、書面、行動的なコミュニケーションを包含する。
HateTinyLLMは、効率的なヘイトスピーチ検出のための微調整デコーダのみの小さな大規模言語モデル(tinyLLM)に基づく、新しいフレームワークである。
論文 参考訳(メタデータ) (2024-04-26T05:29:35Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。