論文の概要: Activation Steering for Bias Mitigation: An Interpretable Approach to Safer LLMs
- arxiv url: http://arxiv.org/abs/2508.09019v1
- Date: Tue, 12 Aug 2025 15:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.48161
- Title: Activation Steering for Bias Mitigation: An Interpretable Approach to Safer LLMs
- Title(参考訳): バイアス低減のためのアクティベーションステアリング--LCMに対する解釈可能なアプローチ
- Authors: Shivam Dubey,
- Abstract要約: 大規模言語モデル(LLM)は、社会システムにますます統合されている。
バイアスを軽減する従来の方法は、しばしばデータフィルタリングやポストホック出力のモデレーションに依存している。
我々は、機械的解釈可能性の手法を用いてバイアスを特定し、積極的に軽減する完全なエンドツーエンドシステムを導入する。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become more integrated into societal systems, the risk of them perpetuating and amplifying harmful biases becomes a critical safety concern. Traditional methods for mitigating bias often rely on data filtering or post-hoc output moderation, which treat the model as an opaque black box. In this work, we introduce a complete, end-to-end system that uses techniques from mechanistic interpretability to both identify and actively mitigate bias directly within a model's internal workings. Our method involves two primary stages. First, we train linear "probes" on the internal activations of a model to detect the latent representations of various biases (e.g., gender, race, age). Our experiments on \texttt{gpt2-large} demonstrate that these probes can identify biased content with near-perfect accuracy, revealing that bias representations become most salient in the model's later layers. Second, we leverage these findings to compute "steering vectors" by contrasting the model's activation patterns for biased and neutral statements. By adding these vectors during inference, we can actively steer the model's generative process away from producing harmful, stereotypical, or biased content in real-time. We demonstrate the efficacy of this activation steering technique, showing that it successfully alters biased completions toward more neutral alternatives. We present our work as a robust and reproducible system that offers a more direct and interpretable approach to building safer and more accountable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLMs)が社会システムに統合されるにつれて、有害なバイアスの持続と増幅のリスクが重要となる。
バイアスを緩和する従来の方法は、しばしばデータフィルタリングやポストホック出力のモデレーションに依存し、このモデルは不透明なブラックボックスとして扱われる。
本研究では,モデルの内部動作内でバイアスを識別し,積極的に緩和するために,機械的解釈可能性の手法を用いた完全なエンドツーエンドシステムを提案する。
我々の方法には2つの主要な段階がある。
まず、モデルの内部アクティベーションに線形な「プローブ」を訓練し、様々なバイアス(例えば、性別、人種、年齢)の潜在表現を検出する。
以上の結果から, モデルの後層において, 偏差表現が最も顕著になることを示すとともに, 偏差成分をほぼ完全精度で同定できることが示唆された。
第二に、モデルのアクティベーションパターンをバイアス付きおよび中性ステートメントと対比することにより、これらの知見を「ステアリングベクトル」の計算に活用する。
推論中にこれらのベクトルを追加することで、モデルの生成プロセスが有害、ステレオタイプまたはバイアスのあるコンテンツをリアルタイムで生成することを避けることができる。
この活性化ステアリング技術の有効性を実証し、より中立な代替品に偏りのある完成品を変更できることを実証した。
我々は、より安全で説明しやすいLCMを構築するための、より直接的で解釈可能なアプローチを提供する、堅牢で再現可能なシステムとして、我々の仕事を提示する。
関連論文リスト
- ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Fooling LLM graders into giving better grades through neural activity guided adversarial prompting [26.164839501935973]
本稿では,AI評価システムにおけるそのようなバイアスを明らかにするための体系的手法を提案する。
我々のアプローチはまず、歪んだ決定結果を予測する隠れた神経活動パターンを特定する。
この組み合わせによって、大きな言語モデルグレーダーを効果的に騙して、人間よりもはるかに高いグレードを割り当てることができることを実証する。
論文 参考訳(メタデータ) (2024-12-17T19:08:22Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Detecting and Mitigating Algorithmic Bias in Binary Classification using
Causal Modeling [0.0]
予測モデルの性別バイアスは0.05レベルで統計的に有意であることを示す。
本研究は,性別バイアス軽減のための因果モデルの有効性を示す。
我々の新しいアプローチは直感的で使いやすく、R の "lavaan" のような既存の統計ソフトウェアツールを使って実装することができる。
論文 参考訳(メタデータ) (2023-10-19T02:21:04Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Fighting Fire with Fire: Contrastive Debiasing without Bias-free Data
via Generative Bias-transformation [31.944147533327058]
生成バイアス変換(CDvG)によるコントラスト劣化
本稿では, バイアスラベルやバイアスのないサンプルを伴わないCDvG (Generative Bias-Transformation) によるコントラスト的デバイアス(Contrastive Debiasing) 手法を提案する。
本手法は, バイアスのないサンプルが不足あるいは欠落している場合に, 従来の手法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2021-12-02T07:16:06Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。