論文の概要: When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making
- arxiv url: http://arxiv.org/abs/2603.18530v1
- Date: Thu, 19 Mar 2026 06:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.980772
- Title: When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making
- Title(参考訳): 名称変更の判断: LLM意思決定におけるインターベンション一貫性の体系的バイアス
- Authors: Abhinaba Basu, Pavan Chakraborty,
- Abstract要約: ICE-Guardは、3種類の突発的な機能依存を検出するために介入整合性テストを適用するフレームワークである。
10領域にわたる11大言語モデル(LLM)を評価した。
本研究では,ICE誘導型検出・診断・緩和・検証ループを用いて,累積78%のバイアス低減を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for high-stakes decisions, yet their susceptibility to spurious features remains poorly characterized. We introduce ICE-Guard, a framework applying intervention consistency testing to detect three types of spurious feature reliance: demographic (name/race swaps), authority (credential/prestige swaps), and framing (positive/negative restatements). Across 3,000 vignettes spanning 10 high-stakes domains, we evaluate 11 LLMs from 8 families and find that (1) authority bias (mean 5.8%) and framing bias (5.0%) substantially exceed demographic bias (2.2%), challenging the field's narrow focus on demographics; (2) bias concentrates in specific domains -- finance shows 22.6% authority bias while criminal justice shows only 2.8%; (3) structured decomposition, where the LLM extracts features and a deterministic rubric decides, reduces flip rates by up to 100% (median 49% across 9 models). We demonstrate an ICE-guided detect-diagnose-mitigate-verify loop achieving cumulative 78% bias reduction via iterative prompt patching. Validation against real COMPAS recidivism data shows COMPAS-derived flip rates exceed pooled synthetic rates, suggesting our benchmark provides a conservative estimate of real-world bias. Code and data are publicly available.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、ハイテイクな決定にますます使われているが、その素早い特徴に対する感受性は、いまだに貧弱なままである。
ICE-Guardは,人口統計(名前/トレーススワップ),権威(クレデンシャル/事前スワップ),フレーミング(肯定的/否定的再配置)の3種類の突発的特徴依存を検出するために介入整合性テストを適用したフレームワークである。
10つの高い領域にまたがる3,000のヴィグネットのうち、(1)権威バイアス(平均5.8%)とフレーミングバイアス(平均5.0%)は、人口統計バイアス(2.2%)をほぼ超え、分野の狭義の人口統計バイアス(2.6%)に挑戦し、(2)金融の偏見は22.6%、刑事司法は2.8%、(3)構造的分解(LLMが特徴を抽出し、決定論的ルーリックが決定する)は、フリップ率を最大100%(中間49%)に下げる。
繰り返しプロンプトパッチによる累積78%のバイアス低減を実現したICE誘導型検出・診断・緩和・検証ループを実証した。
実際のCompASリシビズムデータに対する検証では、CompAS由来のフリップレートがプールされた合成レートを超えていることが示され、我々のベンチマークは実世界のバイアスを保守的に見積もっていることを示唆している。
コードとデータは公開されている。
関連論文リスト
- The Bias is in the Details: An Assessment of Cognitive Bias in LLMs [1.9651471153360769]
大規模言語モデル(LLM)は、現実の意思決定プロセスにますます組み込まれています。
本稿では,45LLMにおける8つの認知バイアスの大規模評価について述べる。
モデルサイズと迅速な特異性の両方がバイアス感受性に重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2025-09-26T19:09:42Z) - GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition [0.0]
GANDiff FRは、人口動態や環境要因を正確に制御し、再現可能な厳密さで偏見を計測し、説明し、低減する最初の合成フレームワークである。
我々は5つのコホートにまたがる1万の人種的バランスのとれた顔を、自動検出と人的レビューによって合成する。
一致する操作ポイントの下でArcFace、CosFace、AdaFaceをベンチマークすると、AdaFaceはグループ間のTPR格差を60%削減する。
GANDiff FR は、純粋な GAN と比較して約20%の計算オーバーヘッドがあるにもかかわらず、3倍の属性条件付き変種が得られる。
論文 参考訳(メタデータ) (2025-08-15T09:05:57Z) - Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach [53.824673312331626]
Implicit Demography Inference (IDI)モジュールは、k平均クラスタリングを用いて、音声感情認識(SER)におけるバイアスを軽減する
実験により、擬似ラベルIDIはサブグループの格差を減らし、フェアネスの指標を28%以上改善することが示された。
教師なしのIDIは、SERのパフォーマンスが3.6%未満のフェアネス指標を4.6%以上改善する。
論文 参考訳(メタデータ) (2025-05-20T14:50:44Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Fairness-enhancing mixed effects deep learning improves fairness on in- and out-of-distribution clustered (non-iid) data [6.596656267996196]
フェア・ミックスド・エフェクト・ディープ・ラーニング(Fair MEDL)フレームワークを提案する。
本フレームワークは,1)不変なFEを学習するためのクラスタ逆効果,2)REのためのベイズニューラルネットワーク,3)最終的な予測のためにFEとREを組み合わせた混合関数,を通じて,クラスタ不変な固定効果(FE)とクラスタ固有ランダムエフェクト(RE)を定量化する。
公正なMEDLフレームワークは、年齢で86.4%、人種で64.9%、性で57.8%、結婚で36.2%の公正性を向上し、堅牢な予測性能を維持している。
論文 参考訳(メタデータ) (2023-10-04T20:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。