論文の概要: Measuring Mechanistic Independence: Can Bias Be Removed Without Erasing Demographics?
- arxiv url: http://arxiv.org/abs/2512.20796v1
- Date: Tue, 23 Dec 2025 21:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.613121
- Title: Measuring Mechanistic Independence: Can Bias Be Removed Without Erasing Demographics?
- Title(参考訳): メカニカル・インディペンデンスを計測する - バイアスはデモグラフィックを消さずに除去できるのか?
- Authors: Zhengyang Shan, Aaron Mueller,
- Abstract要約: 本研究では、言語モデルにおける一般的な人口統計学的認識から、独立した人口統計学的バイアス機構がどのように存在するかを検討する。
属性に基づく格言は、名前認識の精度を保ちながら、人種や性職業のステレオタイプを緩和する。
相関に基づくアブレーションは、教育バイアスに対してより効果的であることがわかった。
- 参考スコア(独自算出の注目度): 17.978167351646288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how independent demographic bias mechanisms are from general demographic recognition in language models. Using a multi-task evaluation setup where demographics are associated with names, professions, and education levels, we measure whether models can be debiased while preserving demographic detection capabilities. We compare attribution-based and correlation-based methods for locating bias features. We find that targeted sparse autoencoder feature ablations in Gemma-2-9B reduce bias without degrading recognition performance: attribution-based ablations mitigate race and gender profession stereotypes while preserving name recognition accuracy, whereas correlation-based ablations are more effective for education bias. Qualitative analysis further reveals that removing attribution features in education tasks induces ``prior collapse'', thus increasing overall bias. This highlights the need for dimension-specific interventions. Overall, our results show that demographic bias arises from task-specific mechanisms rather than absolute demographic markers, and that mechanistic inference-time interventions can enable surgical debiasing without compromising core model capabilities.
- Abstract(参考訳): 本研究では、言語モデルにおける一般的な人口統計学的認識から、独立した人口統計学的バイアス機構がどのように存在するかを検討する。
マルチタスク・アセスメント・セットアップでは、人口統計が名前、職業、教育レベルと関連付けられているため、人口統計学的検出能力を保ちながらモデルに偏りが生じるかどうかを測定する。
帰属に基づく手法と相関に基づく手法を比較し、バイアスの特徴を同定する。
Gemma-2-9Bのターゲットスパースオートエンコーダは、認識性能を低下させることなくバイアスを低減し、帰属ベースのアブレーションは、名前認識の精度を保ちながら、人種や性職業のステレオタイプを緩和するのに対し、相関ベースのアブレーションは教育バイアスに対してより効果的である。
質的分析により、教育課題における帰属的特徴の除去は「優先的崩壊」を誘発し、全体的な偏見が増大することが明らかとなった。
これは次元固有の介入の必要性を強調します。
以上の結果から,絶対的人口統計指標ではなく,タスク固有のメカニズムから人口統計バイアスが発生し,機械的推論時間の介入により,コアモデルの能力を損なうことなく,外科的偏りを生じさせる可能性が示唆された。
関連論文リスト
- How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - MABR: Multilayer Adversarial Bias Removal Without Prior Bias Knowledge [6.208151505901749]
実世界のデータに基づいてトレーニングされたモデルは、しばしば既存の社会的バイアスを反映し、悪化させる。
本稿では,従来のバイアス型知識とは独立して機能する,新たな対人訓練戦略を提案する。
本手法は,人口統計学的アノテーションを必要とせずに,社会的バイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-08-10T09:11:01Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。