論文の概要: Characterizing Selective Refusal Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.27087v1
- Date: Fri, 31 Oct 2025 01:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.946441
- Title: Characterizing Selective Refusal Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける選択的拒否バイアスの特徴付け
- Authors: Adel Khorramrouz, Sharon Levy,
- Abstract要約: 大規模言語モデル(LLM)における安全ガードレールは、悪意のあるユーザが大規模に有害なコンテンツを生成するのを防ぐために開発された。
LLMは、一部の人口集団をターゲットにした有害なコンテンツを生成することを拒否するかもしれない。
以上の結果から,性別,性的指向,国籍,宗教属性に対する選択的拒絶バイアスの証拠が示唆された。
- 参考スコア(独自算出の注目度): 10.194832877178701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety guardrails in large language models(LLMs) are developed to prevent malicious users from generating toxic content at a large scale. However, these measures can inadvertently introduce or reflect new biases, as LLMs may refuse to generate harmful content targeting some demographic groups and not others. We explore this selective refusal bias in LLM guardrails through the lens of refusal rates of targeted individual and intersectional demographic groups, types of LLM responses, and length of generated refusals. Our results show evidence of selective refusal bias across gender, sexual orientation, nationality, and religion attributes. This leads us to investigate additional safety implications via an indirect attack, where we target previously refused groups. Our findings emphasize the need for more equitable and robust performance in safety guardrails across demographic groups.
- Abstract(参考訳): 大規模言語モデル(LLM)における安全ガードレールは、悪意のあるユーザが大規模に有害なコンテンツを生成するのを防ぐために開発された。
しかし、LSMは一部の人口集団をターゲットにした有害なコンテンツを生成することを拒否する可能性があるため、これらの措置は必然的に新しいバイアスを導入または反映することができる。
本研究では, LLMガードレールにおけるこの選択的拒絶バイアスを, 対象とする個人集団と交叉集団の拒絶率, LLM応答の種類, 発生した拒絶長さのレンズを用いて検討する。
以上の結果から,性別,性的指向,国籍,宗教属性に対する選択的拒絶バイアスの証拠が示唆された。
これにより、以前に拒否されたグループを標的とした間接攻撃による追加の安全性への影響を調べることができる。
本研究は,人口集団間の安全ガードレールにおいて,より公平で堅牢な性能の必要性を強調した。
関連論文リスト
- Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Bias and Volatility: A Statistical Framework for Evaluating Large Language Model's Stereotypes and the Associated Generation Inconsistency [33.17945055081054]
現在のアライメント評価指標は、大言語モデルの一貫性のない生成行動に起因するステレオタイプのランダム性を見落としていることが多い。
LLM出力におけるステレオタイプの確率分布を推定するBias-Volatility Framework (BVF)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。