論文の概要: MiJaBench: Revealing Minority Biases in Large Language Models via Hate Speech Jailbreaking
- arxiv url: http://arxiv.org/abs/2601.04389v1
- Date: Wed, 07 Jan 2026 20:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.914769
- Title: MiJaBench: Revealing Minority Biases in Large Language Models via Hate Speech Jailbreaking
- Title(参考訳): MiJaBench: Hate Speech Jailbreakingを通じて、大規模言語モデルにおけるマイノリティバイアスを明らかにする
- Authors: Iago Alves Brito, Walcy Santos Rezende Rios, Julia Soares Dollis, Diogo Fernandes Costa Silva, Arlindo Rodrigues Galvão Filho,
- Abstract要約: MiJaBenchは16の少数派グループで44,000のプロンプトからなる逆数ベンチマークである。
防衛率は、目標グループのみに基づいて、同じモデル内で最大33%変動する。
GitHubでは、粒度の階層的アライメントの研究を促進するために、すべてのデータセットとスクリプトをリリースしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current safety evaluations of large language models (LLMs) create a dangerous illusion of universality, aggregating "Identity Hate" into scalar scores that mask systemic vulnerabilities against specific populations. To expose this selective safety, we introduce MiJaBench, a bilingual (English and Portuguese) adversarial benchmark comprising 44,000 prompts across 16 minority groups. By generating 528,000 prompt-response pairs from 12 state-of-the-art LLMs, we curate MiJaBench-Align, revealing that safety alignment is not a generalized semantic capability but a demographic hierarchy: defense rates fluctuate by up to 33\% within the same model solely based on the target group. Crucially, we demonstrate that model scaling exacerbates these disparities, suggesting that current alignment techniques do not create principle of non-discrimination but reinforces memorized refusal boundaries only for specific groups, challenging the current scaling laws of security. We release all datasets and scripts to encourage research into granular demographic alignment at GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の安全性評価は、特定の集団に対するシステム的脆弱性を隠蔽するスカラースコアに"Identity Hate"を集約することで、普遍性の危険な錯覚を生み出す。
この選択的安全性を明らかにするために,16の少数グループで44,000のプロンプトからなるバイリンガル(英語とポルトガル語)の対立ベンチマークであるMiJaBenchを紹介した。
また,12個のLLMから528,000個のプロンプト応答対を生成することで,安全アライメントは汎用セマンティック機能ではなく,階層階層構造であることを示す。
重要なことは、モデルスケーリングがこれらの格差を悪化させることを示し、現在のアライメント技術が非差別の原則を創出するのではなく、特定のグループに限って記憶された拒絶境界を補強し、現在のスケーリング法則に挑戦することを示唆している。
GitHubでは、粒度の階層的アライメントの研究を促進するために、すべてのデータセットとスクリプトをリリースしています。
関連論文リスト
- Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs [32.12545369011503]
DebateBias-8Kは、多言語で議論的な新しいベンチマークで、現実的な生成環境での物語バイアスがどのように現れるかを明らかにする。
私たちのデータセットには、女性の権利、社会経済開発、テロリズム、宗教の4つの重要なドメインにまたがる8,400の構造化された議論のプロンプトが含まれています。
その結果、安全アライメントにもかかわらず、全てのモデルがエンレントステレオタイプを再現していることが判明した。
論文 参考訳(メタデータ) (2025-11-03T03:25:40Z) - Characterizing Selective Refusal Bias in Large Language Models [10.194832877178701]
大規模言語モデル(LLM)における安全ガードレールは、悪意のあるユーザが大規模に有害なコンテンツを生成するのを防ぐために開発された。
LLMは、一部の人口集団をターゲットにした有害なコンテンツを生成することを拒否するかもしれない。
以上の結果から,性別,性的指向,国籍,宗教属性に対する選択的拒絶バイアスの証拠が示唆された。
論文 参考訳(メタデータ) (2025-10-31T01:17:28Z) - BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models [32.092175234635654]
本稿では,Large Language Models (LLMs) に対する新たなバックドア攻撃について述べる。
まず,特定の下流タスクのトレーニングデータをトリガー言語に翻訳することで,ベースライン言語バックドアアタックを実装した。
この課題に対処するために、これらのタスクの特定の疑問によらず、チャットLLM内のダウンストリームタスクをトリガーできる新しいタスク非依存の言語バックドアであるBadLingualを設計する。
論文 参考訳(メタデータ) (2025-05-06T13:07:57Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [28.95203269961824]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。