論文の概要: Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder
- arxiv url: http://arxiv.org/abs/2603.11793v1
- Date: Thu, 12 Mar 2026 10:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.027529
- Title: Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder
- Title(参考訳): CLIPビジョンエンコーダの注意レベルにおけるデモグラフィックバイアスの配置
- Authors: Alaa Yasser, Kittipat Phunjanna, Marcos Escudero Viñolo, Catarina Barata, Jenny Benois-Pineau,
- Abstract要約: 本稿では,残差ストリーム分解,ゼロショット概念活性化ベクトル,バイアス増分テキストスパン解析を組み合わせたメカニスティックフェアネス監査を提案する。
このパイプラインを、FACETベンチマークの42の専門クラスであるCLIP ViT-L-14エンコーダに適用し、性別と年齢の偏りを検査する。
- 参考スコア(独自算出の注目度): 5.240228994459652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard fairness audits of foundation models quantify that a model is biased, but not where inside the network the bias resides. We propose a mechanistic fairness audit that combines projected residual-stream decomposition, zero-shot Concept Activation Vectors, and bias-augmented TextSpan analysis to locate demographic bias at the level of individual attention heads in vision transformers. As a feasibility case study, we apply this pipeline to the CLIP ViT-L-14 encoder on 42 profession classes of the FACET benchmark, auditing both gender and age bias. For gender, the pipeline identifies four terminal-layer heads whose ablation reduces global bias (Cramer's V: 0.381 -> 0.362) while marginally improving accuracy (+0.42%); a layer-matched random control confirms that this effect is specific to the identified heads. A single head in the final layer contributes to the majority of the reduction in the most stereotyped classes, and class-level analysis shows that corrected predictions shift toward the correct occupation. For age, the same pipeline identifies candidate heads, but ablation produces weaker and less consistent effects, suggesting that age bias is encoded more diffusely than gender bias in this model. These results provide preliminary evidence that head-level bias localisation is feasible for discriminative vision encoders and that the degree of localisability may vary across protected attributes. keywords: Bias . CLIP . Mechanistic Interpretability . Vision Transformer . Fairness
- Abstract(参考訳): 基礎モデルの標準的な公正監査は、モデルがバイアスを受けているが、バイアスがネットワーク内に存在する場所ではないことを定量化します。
本稿では,残差ストリーム分解,ゼロショット概念アクティベーションベクトル,バイアス増分テキストスパン解析を併用したメカニスティックフェアネス監査手法を提案する。
このパイプラインを、FACETベンチマークの42の専門クラスであるCLIP ViT-L-14エンコーダに適用し、性別と年齢の偏りを検査する。
性別に関して、パイプラインは、アブレーションがグローバルバイアス(クラマーのV:0.381 ->0.362)を減少させる4つの末端層ヘッドを特定し、精度を極端に向上させる(+0.42%)。
最終層の1つの頭部は、最もステレオタイプ化されたクラスの減少の大部分に寄与し、クラスレベルの分析では、修正された予測が正しい職業へと移行することを示している。
年齢については、同じパイプラインが候補の頭部を識別するが、アブレーションはより弱く一貫性の低い効果を生じさせ、このモデルでは年齢バイアスが性別バイアスよりも拡散的に符号化されていることを示唆している。
これらの結果は、識別的視覚エンコーダにおいて、頭部偏差局所化が実現可能であること、また、局所可能性の程度が保護属性によって異なることの予備的証拠を提供する。
キーワード: バイアス。
CLIP。
機械的解釈可能性。
ビジョン・トランスフォーマー。
公正
関連論文リスト
- Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation [116.86965910589775]
対象物の10%だけをマスクしたり、背景が弱くぼやけたりといった、最小限の摂動でさえ、バイアススコアを劇的に変える可能性がある。
これは、現在のバイアス評価がモデル応答を、性別バイアスよりも刺激的な特徴に反映していることを示唆している。
論文 参考訳(メタデータ) (2025-09-09T11:14:11Z) - Debiasing CLIP: Interpreting and Correcting Bias in Attention Heads [29.880490526874876]
我々は,刺激的な注意を識別し,ターゲットアブレーションによって軽減する,コントラスト的なフレームワークであるtextsc-Then-Correct (LTC) を導入する。
我々は,背景性バイアスのあるベンチマークでLCCを評価し,非トレーニング後ベースラインと比較して,最低グループ精度が50%以上向上した。
我々は,選択した頭部の表現を可視化し,提示された解釈が,刺激的な頭部と快楽な頭部の両方を識別するコントラスト的なメカニズムを裏付けていることを見出した。
論文 参考訳(メタデータ) (2025-05-23T03:13:42Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。