論文の概要: Silenced Biases: The Dark Side LLMs Learned to Refuse
- arxiv url: http://arxiv.org/abs/2511.03369v1
- Date: Wed, 05 Nov 2025 11:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.41343
- Title: Silenced Biases: The Dark Side LLMs Learned to Refuse
- Title(参考訳): Silenced Biases: ダークサイドのLCMを再利用する方法
- Authors: Rom Himelstein, Amit LeVi, Brit Youngmann, Yaniv Nemcovsky, Avi Mendelson,
- Abstract要約: モデルの潜在空間内にエンコードされた不公平な選好であるサイレントバイアスの概念を導入する。
我々は,アクティベーションステアリングを用いて,これらのバイアスを明らかにすることを目的としたサイレンスドバイアスベンチマーク(SBB)を提案する。
- 参考スコア(独自算出の注目度): 5.2630646053506345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-aligned large language models (LLMs) are becoming increasingly widespread, especially in sensitive applications where fairness is essential and biased outputs can cause significant harm. However, evaluating the fairness of models is a complex challenge, and approaches that do so typically utilize standard question-answer (QA) styled schemes. Such methods often overlook deeper issues by interpreting the model's refusal responses as positive fairness measurements, which creates a false sense of fairness. In this work, we introduce the concept of silenced biases, which are unfair preferences encoded within models' latent space and are effectively concealed by safety-alignment. Previous approaches that considered similar indirect biases often relied on prompt manipulation or handcrafted implicit queries, which present limited scalability and risk contaminating the evaluation process with additional biases. We propose the Silenced Bias Benchmark (SBB), which aims to uncover these biases by employing activation steering to reduce model refusals during QA. SBB supports easy expansion to new demographic groups and subjects, presenting a fairness evaluation framework that encourages the future development of fair models and tools beyond the masking effects of alignment training. We demonstrate our approach over multiple LLMs, where our findings expose an alarming distinction between models' direct responses and their underlying fairness issues.
- Abstract(参考訳): 安全性に配慮した大規模言語モデル(LLM)は、特に公正性が不可欠であり、バイアスのある出力が重大な害をもたらすセンシティブなアプリケーションにおいて、急速に普及している。
しかし、モデルの公平性を評価することは複雑な課題であり、標準的なQAスタイルのスキームを利用するアプローチが一般的である。
このような手法は、モデルの拒絶応答を正の公正度の測定として解釈することで、より深い問題を見落とし、誤った公正感を生み出す。
本研究では,モデルの潜在空間内にエンコードされた不公平な嗜好であり,安全アライメントによって効果的に隠蔽されるサイレントドバイアスの概念を紹介する。
同様の間接バイアスを考慮した従来のアプローチは、しばしば即時操作や手作りの暗黙のクエリに頼っていた。
本稿では、アクティベーションステアリングを用いて、QA中のモデル拒絶を減らすことにより、これらのバイアスを明らかにすることを目的としたSilenced Bias Benchmark(SBB)を提案する。
SBBは、新しい人口集団や対象への容易な拡大をサポートし、アライメントトレーニングのマスキング効果を超えて、公正なモデルやツールの開発を促進する公平性評価フレームワークを提供する。
我々は,複数のLCMに対するアプローチを実証し,本研究の結果から,モデルの直接応答と,その基礎となる公平性問題との違いが明らかとなった。
関連論文リスト
- Breaking the Benchmark: Revealing LLM Bias via Minimal Contextual Augmentation [12.56588481992456]
大規模言語モデルは、その表現と振舞いにステレオタイプ的バイアスを示すことが示されている。
3つのプラグ・アンド・プレイステップを含む,新規で汎用的な拡張フレームワークを提案する。
大規模言語モデルは入力の摂動に影響を受けやすいことが分かり、ステレオタイプに振る舞う可能性が高くなる。
論文 参考訳(メタデータ) (2025-10-27T23:05:12Z) - Adaptive Generation of Bias-Eliciting Questions for LLMs [18.608477560948003]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションに広くデプロイされており、世界中で数億に達しています。
我々は,性,人種,宗教などのセンシティブな属性に対して,現実的でオープンな質問を自動的に生成する,反現実的バイアス評価フレームワークを導入する。
また、非対称な拒絶や偏見の明示的な認識など、ユーザインタラクションにますます関係する異なる応答次元も捉えています。
論文 参考訳(メタデータ) (2025-10-14T13:08:10Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。