論文の概要: Characterizing Selective Refusal Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.27087v1
- Date: Fri, 31 Oct 2025 01:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.946441
- Title: Characterizing Selective Refusal Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける選択的拒否バイアスの特徴付け
- Authors: Adel Khorramrouz, Sharon Levy,
- Abstract要約: 大規模言語モデル(LLM)における安全ガードレールは、悪意のあるユーザが大規模に有害なコンテンツを生成するのを防ぐために開発された。
LLMは、一部の人口集団をターゲットにした有害なコンテンツを生成することを拒否するかもしれない。
以上の結果から,性別,性的指向,国籍,宗教属性に対する選択的拒絶バイアスの証拠が示唆された。
- 参考スコア(独自算出の注目度): 10.194832877178701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety guardrails in large language models(LLMs) are developed to prevent malicious users from generating toxic content at a large scale. However, these measures can inadvertently introduce or reflect new biases, as LLMs may refuse to generate harmful content targeting some demographic groups and not others. We explore this selective refusal bias in LLM guardrails through the lens of refusal rates of targeted individual and intersectional demographic groups, types of LLM responses, and length of generated refusals. Our results show evidence of selective refusal bias across gender, sexual orientation, nationality, and religion attributes. This leads us to investigate additional safety implications via an indirect attack, where we target previously refused groups. Our findings emphasize the need for more equitable and robust performance in safety guardrails across demographic groups.
- Abstract(参考訳): 大規模言語モデル(LLM)における安全ガードレールは、悪意のあるユーザが大規模に有害なコンテンツを生成するのを防ぐために開発された。
しかし、LSMは一部の人口集団をターゲットにした有害なコンテンツを生成することを拒否する可能性があるため、これらの措置は必然的に新しいバイアスを導入または反映することができる。
本研究では, LLMガードレールにおけるこの選択的拒絶バイアスを, 対象とする個人集団と交叉集団の拒絶率, LLM応答の種類, 発生した拒絶長さのレンズを用いて検討する。
以上の結果から,性別,性的指向,国籍,宗教属性に対する選択的拒絶バイアスの証拠が示唆された。
これにより、以前に拒否されたグループを標的とした間接攻撃による追加の安全性への影響を調べることができる。
本研究は,人口集団間の安全ガードレールにおいて,より公平で堅牢な性能の必要性を強調した。
関連論文リスト
- Analyzing Bias in False Refusal Behavior of Large Language Models for Hate Speech Detoxification [7.696781721646013]
ヘイトスピーチの解毒における虚偽の拒絶行動について検討する。
大規模言語モデル (LLM) は, 意味毒性が高い入力を不均等に拒否することを示す。
本稿では, 英語のヘイトスピーチを中国語に翻訳し, 解毒・復調するための単純な相互翻訳戦略を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:45:31Z) - Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts [54.15982476754607]
大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-25T16:01:31Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models [19.18522268167047]
大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。
しかし、一部の人口集団に偏った、ネガティブで有害なコンテンツを生み出すことに苦しむ。
本稿では,(L)LMを高い流速で脱バイアスするフレームワークであるLIDAOを提案する。
論文 参考訳(メタデータ) (2024-06-01T20:12:54Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Bias and Volatility: A Statistical Framework for Evaluating Large Language Model's Stereotypes and the Associated Generation Inconsistency [33.17945055081054]
現在のアライメント評価指標は、大言語モデルの一貫性のない生成行動に起因するステレオタイプのランダム性を見落としていることが多い。
LLM出力におけるステレオタイプの確率分布を推定するBias-Volatility Framework (BVF)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。