論文の概要: Analyzing Bias in False Refusal Behavior of Large Language Models for Hate Speech Detoxification
- arxiv url: http://arxiv.org/abs/2601.08668v1
- Date: Tue, 13 Jan 2026 15:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.265915
- Title: Analyzing Bias in False Refusal Behavior of Large Language Models for Hate Speech Detoxification
- Title(参考訳): ヘイトスピーチデトックス化のための大規模言語モデルの偽拒絶行動におけるバイアスの解析
- Authors: Kyuri Im, Shuzhou Yuan, Michael Färber,
- Abstract要約: ヘイトスピーチの解毒における虚偽の拒絶行動について検討する。
大規模言語モデル (LLM) は, 意味毒性が高い入力を不均等に拒否することを示す。
本稿では, 英語のヘイトスピーチを中国語に翻訳し, 解毒・復調するための単純な相互翻訳戦略を提案する。
- 参考スコア(独自算出の注目度): 7.696781721646013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have increasingly been applied to hate speech detoxification, the prompts often trigger safety alerts, causing LLMs to refuse the task. In this study, we systematically investigate false refusal behavior in hate speech detoxification and analyze the contextual and linguistic biases that trigger such refusals. We evaluate nine LLMs on both English and multilingual datasets, our results show that LLMs disproportionately refuse inputs with higher semantic toxicity and those targeting specific groups, particularly nationality, religion, and political ideology. Although multilingual datasets exhibit lower overall false refusal rates than English datasets, models still display systematic, language-dependent biases toward certain targets. Based on these findings, we propose a simple cross-translation strategy, translating English hate speech into Chinese for detoxification and back, which substantially reduces false refusals while preserving the original content, providing an effective and lightweight mitigation approach.
- Abstract(参考訳): 大きな言語モデル(LLM)は、音声の解毒を嫌うためにますます適用されているが、このプロンプトは安全警告をトリガーし、LLMはタスクを拒否する。
本研究では,ヘイトスピーチの解毒における虚偽の拒絶行為を系統的に調査し,そのような拒絶を誘発する文脈的・言語的バイアスを分析する。
我々は、英語と多言語の両方のデータセット上で9つのLLMを評価し、LLMは高い意味毒性を持つ入力を不均等に拒否し、特定のグループ、特に国籍、宗教、政治的イデオロギーを標的としている。
多言語データセットは、英語データセットよりも全体的な拒絶率が低いが、モデルは特定のターゲットに対する体系的な言語依存バイアスを示す。
これらの知見に基づいて,英語のヘイトスピーチを中国語に翻訳してデトックス化・バックすることで,オリジナルコンテンツを保存しながら誤認を著しく低減し,効果的かつ軽量な緩和アプローチを提供する,シンプルな相互翻訳戦略を提案する。
関連論文リスト
- Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual LLMs: An Extensive Investigation [6.781972039785424]
近年のジェネレーティブ・大型言語モデル(LLM)は英語以外の言語では顕著な性能を示した。
これらの言語で刺激されると、より有害な社会的偏見と毒性のレベルを表現する傾向がある。
異なる微調整法がモデルのバイアスや毒性に与える影響について検討するが、その効果は、流動的で多様なテキストを生成する能力にも及んでいる。
論文 参考訳(メタデータ) (2024-12-18T17:05:08Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。