論文の概要: DiffHeads: Differential Analysis and Inference-Time Masking of Bias Heads in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.10142v1
- Date: Sat, 11 Oct 2025 09:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.807143
- Title: DiffHeads: Differential Analysis and Inference-Time Masking of Bias Heads in Large Language Models
- Title(参考訳): ディフヘッド:大規模言語モデルにおけるバイアスヘッドの微分解析と推論時間マスキング
- Authors: Tingxu Han, Wei Song, Ziqi Ding, Ziming Li, Chunrong Fang, Yuekang Li, Dongfang Liu, Zhenyu Chen, Zhenting Wang,
- Abstract要約: DiffHeadsは,大規模言語モデルのための軽量なデバイアス処理フレームワークである。
DiffHeadsは、モデルユーティリティを損なうことなく、それぞれDAとCoTで49.4%、40.3%の不正性を減少させることを示す。
- 参考スコア(独自算出の注目度): 47.639403863507965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly mediate decisions in domains where unfair treatment of demographic groups is unacceptable. Existing work probes when biased outputs appear, but gives little insight into the mechanisms that generate them, leaving existing mitigations largely fragile. In this paper, we conduct a systematic investigation LLM unfairness and propose DiffHeads, a lightweight debiasing framework for LLMs. We first compare Direct-Answer (DA) prompting to Chain-of-Thought (CoT) prompting across eight representative open- and closed-source LLMs. DA will trigger the nature bias part of LLM and improve measured unfairness by 534.5%-391.9% in both one-turn and two-turn dialogues. Next, we define a token-to-head contribution score that traces each token's influence back to individual attention heads. This reveals a small cluster of bias heads that activate under DA but stay largely dormant with CoT, providing the first causal link between prompting strategy and bias emergence. Finally, building on this insight, we propose DiffHeads that identifies bias heads through differential activation analysis between DA and CoT, and selectively masks only those heads. DiffHeads reduces unfairness by 49.4%, and 40.3% under DA and CoT, respectively, without harming model utility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人口集団の不公平な扱いが受け入れられない領域における決定を仲介する。
既存の作業プローブは、バイアスのある出力が現れるときに現れるが、それらを生成するメカニズムについての洞察はほとんど得られず、既存の緩和はほとんど脆弱である。
本稿では, LLMの不公平さを体系的に調査し, LLMの軽量脱バイアスフレームワークであるDiffHeadsを提案する。
直接解答法(DA)とChain-of-Thought(CoT)とを比較し,オープンソースとクローズドソースの8つの LLM を比較した。
DAはLLMの自然バイアス部をトリガーし、1ターンと2ターンの対話において、測定された不公平性を534.5%-391.9%改善する。
次に、トークン・ツー・ヘッドのコントリビューションスコアを定義し、トークンの影響を個別の注意ヘッドに遡る。
これは、DAの下で活性化されるが、CoTとほとんど休眠状態にある小さなバイアスヘッドのクラスタを明らかにし、戦略の促進とバイアスの出現の間の最初の因果関係を提供する。
最後に、この知見に基づいて、DAとCoTの差動活性化分析によりバイアスヘッドを識別するDiffHeadsを提案し、これらのヘッドのみを選択的にマスクする。
DiffHeadsは不公平を49.4%減らし、DAとCoTは40.3%減らした。
関連論文リスト
- What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - Bias Similarity Measurement: A Black-Box Audit of Fairness Across LLMs [35.72288339965426]
バイアス類似度測定(BSM)は、公平性をモデル間の関係性として扱う。
オープンウェイトモデルは、プロプライエタリなシステムと一致したり、超えたりすることができる。
BSMは、調達、回帰テスト、系統スクリーニングのための監査ワークフローを提供する。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Outlier Detection Bias Busted: Understanding Sources of Algorithmic Bias through Data-centric Factors [28.869581543676947]
unsupervised outlier detection (OD) は、金融、セキュリティ等に多くの応用がある。
この研究は、データ中心の異なる要因の下で検出モデルを監査することで、ODの不公平な源泉に光を当てることを目的としている。
この研究に基づくODアルゴリズムは、すべて公正な落とし穴を示すが、どの種類のデータバイアスがより影響を受けやすいかは異なる。
論文 参考訳(メタデータ) (2024-08-24T20:35:32Z) - UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation [12.04811490937078]
フィードフォワードニューラルネットワーク(FFN)とアテンションヘッドが大規模言語モデル(LLM)のバイアスをもたらすかを検討する。
これらのバイアスを軽減するために,推定のみの手法であるUniBiasを導入し,バイアス付きFFNベクトルとアテンションヘッドを効果的に識別・除去する。
論文 参考訳(メタデータ) (2024-05-31T03:59:15Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。