論文の概要: Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions
- arxiv url: http://arxiv.org/abs/2605.15217v1
- Date: Tue, 12 May 2026 12:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.258608
- Title: Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions
- Title(参考訳): バイオマス内部の公平な出力:高分解能判定のためのLCMにおける潜在バイアスの因果ポテンシャルと非対称性
- Authors: Jagdish Tripathy, Marcus Buckmann,
- Abstract要約: 本稿では,人種的関係の異なるアプリケーションを用いて,オープンウェイトモデルを用いた住宅ローン引受について検討する。
モデルでは, 出力レベルの偏りは見られず, モデル層全体にわたる人口動態の表現を保ち, 増幅している。
アクティベーションステアリングと新しい層間干渉により、この抑圧された情報が決定に関連があることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned language models exhibit behavioural fairness in high-stakes decisions while retaining biased associations in their internal representations. However, whether these suppressed representations can affect model outputs - and whether such causal potency is symmetric across demographic groups - remains unknown. We investigate the use of open-weight models for mortgage underwriting using matched applications that differ only in racially-associated names and reveal a critical disconnect: models show no output-level bias, yet retain and amplify demographic representations across model layers. Through activation steering and novel cross-layer interventions, we demonstrate that this suppressed information is decision-relevant: when reinjected at critical layers, it produces near-complete decision reversals. Critically, this latent bias is asymmetric - steering interventions affect decisions in one demographic direction, while producing minimal effects in reverse - and susceptible to adversarial prompt engineering and parameter-efficient fine-tuning. These findings demonstrate that behavioural audits focused on outputs are insufficient: fair outputs can mask exploitable internal biases. They also motivate dual-layer testing frameworks combining output evaluation with representational analysis for AI governance in high-stakes decisions.
- Abstract(参考訳): インストラクションチューニング言語モデルは、内部表現にバイアス付き関連性を保持しながら、ハイテイク決定における行動フェアネスを示す。
しかし、これらの抑制された表現がモデル出力に影響を及ぼすかどうか、また、そのような因果的効用が人口集団間で対称であるかどうかは不明のままである。
人種的に異なる名前のマッチングアプリケーションを用いて、オープンウェイトモデルを用いた住宅ローン代入について検討し、出力レベルのバイアスのないモデルを示すが、モデル層全体にわたる人口動態の表現を維持・増幅する。
アクティベーションステアリングと新しい層間干渉により、この抑制された情報が決定関連であることが示され、重要な層にリジェクションされると、ほぼ完全な決定逆転が生じる。
批判的に言えば、この潜伏バイアスは非対称である - ステアリングの介入は1つの人口統計学的方向の決定に影響を及ぼすが、逆効果は最小限であり、対向的なプロンプトエンジニアリングやパラメータ効率の良い微調整の影響を受けやすい。
これらの結果は、アウトプットに焦点を当てた行動監査が不十分であることを示し、公正なアウトプットは、悪用可能な内部バイアスを隠蔽することができる。
また、ハイテイクな意思決定において、出力評価とAIガバナンスの表現分析を組み合わせた二重層テストフレームワークも動機付けている。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - DSO: Direct Steering Optimization for Bias Mitigation [12.033608044339717]
例えば、視覚言語モデル(VLM)では、部屋のどの人が医師で視覚障害のある人を助けるかを特定する。
しかし、VLMの決定は入力中の人々の認識された人口統計特性の影響を受けており、女性を医師として特定できないなど、偏見のある結果につながる可能性がある。
モデル性能の制御を維持しつつバイアスを軽減するように調整された、強化学習を用いてステアリングアクティベーションの線形変換を求めるダイレクトステアリング最適化(DSO)を提案する。
論文 参考訳(メタデータ) (2025-12-17T19:43:46Z) - Decomposing Direct and Indirect Biases in Linear Models under Demographic Parity Constraint [4.129225533930966]
本稿では,結果のバイアスを直接的(知覚的)成分と間接的(相関的)成分に分解する後処理フレームワークを提案する。
本手法は, 感度特性と非感度特性の両方を含むモデル係数が, 人口統計学的にどう影響するかを解析的に評価する。
私たちのフレームワークは、再トレーニングを必要とせず、モデル監査と緩和のために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-14T13:27:54Z) - Silenced Biases: The Dark Side LLMs Learned to Refuse [5.2630646053506345]
モデルの潜在空間内にエンコードされた不公平な選好であるサイレントバイアスの概念を導入する。
我々は,アクティベーションステアリングを用いて,これらのバイアスを明らかにすることを目的としたサイレンスドバイアスベンチマーク(SBB)を提案する。
論文 参考訳(メタデータ) (2025-11-05T11:24:50Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Hierarchical Bias-Driven Stratification for Interpretable Causal Effect
Estimation [1.6874375111244329]
BICauseTreeは、自然実験が局所的に発生するクラスタを識別する解釈可能なバランシング手法である。
合成および現実的なデータセットを用いて手法の性能を評価し、バイアス-解釈可能性トレードオフを探索し、既存の手法に匹敵することを示す。
論文 参考訳(メタデータ) (2024-01-31T10:58:13Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。