論文の概要: Dialect vs Demographics: Quantifying LLM Bias from Implicit Linguistic Signals vs. Explicit User Profiles
- arxiv url: http://arxiv.org/abs/2604.21152v1
- Date: Wed, 22 Apr 2026 23:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.213024
- Title: Dialect vs Demographics: Quantifying LLM Bias from Implicit Linguistic Signals vs. Explicit User Profiles
- Title(参考訳): 辞書 vs. デモグラフィ: 暗黙の言語信号と明示的なユーザプロファイルからLLMバイアスを定量化する
- Authors: Irti Haq, Belén Saldías,
- Abstract要約: 明示的なアイデンティティは、アクティブなセーフティフィルタをアクティベートし、拒否率を高め、ブラックユーザーの参照テキストと比較して意味的類似性を減少させる。
対照的に、暗黙の方言の手がかりは強力な方言のジェイルブレイクを引き起こします。
現在の安全アライメント技術は、明示的なキーワードに過剰にインデクシングされ、分岐したユーザエクスペリエンスを生み出していることが分かりました。
- 参考スコア(独自算出の注目度): 0.42970700836450476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As state-of-the-art Large Language Models (LLMs) have become ubiquitous, ensuring equitable performance across diverse demographics is critical. However, it remains unclear whether these disparities arise from the explicitly stated identity itself or from the way identity is signaled. In real-world interactions, users' identity is often conveyed implicitly through a complex combination of various socio-linguistic factors. This study disentangles these signals by employing a factorial design with over 24,000 responses from two open-weight LLMs (Gemma-3-12B and Qwen-3-VL-8B), comparing prompts with explicitly announced user profiles against implicit dialect signals (e.g., AAVE, Singlish) across various sensitive domains. Our results uncover a unique paradox in LLM safety where users achieve ``better'' performance by sounding like a demographic than by stating they belong to it. Explicit identity prompts activate aggressive safety filters, increasing refusal rates and reducing semantic similarity compared to our reference text for Black users. In contrast, implicit dialect cues trigger a powerful ``dialect jailbreak,'' reducing refusal probability to near zero while simultaneously achieving a greater level of semantic similarity to the reference texts compared to Standard American English prompts. However, this ``dialect jailbreak'' introduces a critical safety trade-off regarding content sanitization. We find that current safety alignment techniques are brittle and over-indexed on explicit keywords, creating a bifurcated user experience where ``standard'' users receive cautious, sanitized information while dialect speakers navigate a less sanitized, more raw, and potentially a more hostile information landscape and highlights a fundamental tension in alignment--between equitable and linguistic diversity--and underscores the need for safety mechanisms that generalize beyond explicit cues.
- Abstract(参考訳): 最先端の大規模言語モデル (LLM) がユビキタスになってきたため、多様な人口層で同等のパフォーマンスを確保することが重要である。
しかし、これらの相違が明示されたアイデンティティ自体から生じるのか、あるいはアイデンティティのシグナルから生じるのかは定かではない。
現実世界の相互作用において、ユーザのアイデンティティは、様々な社会言語学的要因の複雑な組み合わせを通じて暗黙的に伝達されることが多い。
本研究は,2つのオープンウェイトLLM(Gemma-3-12BとQwen-3-VL-8B)から24,000以上の応答を持つ因子設計を用いて,これらの信号のアンタングルを,暗黙の方言信号(例えば,AAVE,Singlish)に対する明示的なユーザプロファイルと比較した。
LLMの安全性に特有のパラドックスを見出した結果,利用者は「ベッター」の音質を,その個体群よりも人口統計学的な音質で達成できることがわかった。
明示的なアイデンティティは、アクティブな安全フィルタを活性化し、拒否率を増大させ、ブラックユーザーの参照テキストと比較して意味的類似性を低下させる。
対照的に、暗黙の方言の手がかりは、標準アメリカ英語のプロンプトと比較して、基準文とより高度な意味的類似性を達成しながら、拒絶の確率をほぼゼロに下げる強力な「'dialect jailbreak'」を引き起こす。
しかし、この「ダイアレクト・ジェイルブレイク」は、コンテンツの衛生に関して重要な安全上のトレードオフをもたらす。
現在の安全アライメント技術は、明示的なキーワードに過度にインデクシングされ、‘標準’のユーザが慎重で衛生的な情報を受け取っているのに対して、方言話者は、より衛生的で、より生み出され、より敵対的な情報ランドスケープをナビゲートし、アライメントにおける基本的な緊張を浮き彫りにする。
関連論文リスト
- LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection [49.07221734365168]
ソーシャルメディア上でのヘイトスピーチは、サイバースペースの確保には不可欠だが、自動検出システムに大きく依存している。
我々は、モダリティが相互作用する意味的意図変化を特徴付け、良心的憎悪から暗黙的憎悪を構築するか、意味的逆転を通じて毒性を中和する。
本稿では,これらの複雑な手がかりを効果的に解読するために,裁判所エージェントによる非対称推論(Asymmetric Reasoning)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T15:46:23Z) - MiJaBench: Revealing Minority Biases in Large Language Models via Hate Speech Jailbreaking [0.0]
MiJaBenchは16の少数派グループで44,000のプロンプトからなる逆数ベンチマークである。
防衛率は、目標グループのみに基づいて、同じモデル内で最大33%変動する。
GitHubでは、粒度の階層的アライメントの研究を促進するために、すべてのデータセットとスクリプトをリリースしています。
論文 参考訳(メタデータ) (2026-01-07T20:53:18Z) - Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T19:10:08Z) - Say It Differently: Linguistic Styles as Jailbreak Vectors [0.763334557068953]
我々は、恐怖や好奇心などの言語スタイルが有害な意図を再構築し、整列モデルから安全でない反応を誘発する方法について研究する。
3つの標準データセットからのプロンプトを11の異なる言語スタイルに変換することで、スタイル拡張されたjailbreakベンチマークを構築する。
恐怖、好奇心、慈悲心といったスタイルは最も効果的で、文脈化された書き直しはテンプレート化されたバリエーションよりも優れている。
論文 参考訳(メタデータ) (2025-11-13T17:24:38Z) - Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。
我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。
あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文 参考訳(メタデータ) (2025-07-30T21:50:19Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens [26.119521867045616]
モデルの語彙を特別な赤いフラグトークンで拡張することを提案する。
有害なコンテンツが生成または差し迫ったときに、このトークンを挿入するようにモデルをトレーニングします。
このアプローチは,既存の安全技術と補完するものだ。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification [7.014381169870851]
大規模言語モデル(LLM)は、ヘイトスピーチ検出を含むスケーラブルなコンテンツモデレーションに対して、有望な約束を提供する。
また、村落や方言に対して脆弱で偏見があることも知られている。
そのためには、ヘイトスピーチ検出などの高度なタスクを批判的に精査する必要がある。
論文 参考訳(メタデータ) (2024-10-27T16:06:24Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。