論文の概要: KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement
- arxiv url: http://arxiv.org/abs/2601.21864v1
- Date: Thu, 29 Jan 2026 15:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.94042
- Title: KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement
- Title(参考訳): KnowBias: Know-Bias Neuron Enhancement による LLM における社会的バイアスの軽減
- Authors: Jinhao Pan, Chahat Raj, Anjishnu Mukherjee, Sina Mansouri, Bowen Wei, Shloka Yada, Ziwei Zhu,
- Abstract要約: 大きな言語モデル(LLM)は、有害なステレオタイプを強化し、安全な配置を制限する社会的バイアスを示す。
本研究では, バイアス認知をコードするニューロンを抑えるのではなく, バイアスを緩和するフレームワークであるKnowBiasを提案する。
KnowBiasは、属性に基づく分析を通じて、バイアス知識をコードするニューロンを識別し、推論時にそれらを選択的に強化する。
- 参考スコア(独自算出の注目度): 5.243877326529689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit social biases that reinforce harmful stereotypes, limiting their safe deployment. Most existing debiasing methods adopt a suppressive paradigm by modifying parameters, prompts, or neurons associated with biased behavior; however, such approaches are often brittle, weakly generalizable, data-inefficient, and prone to degrading general capability. We propose \textbf{KnowBias}, a lightweight and conceptually distinct framework that mitigates bias by strengthening, rather than suppressing, neurons encoding bias-knowledge. KnowBias identifies neurons encoding bias knowledge using a small set of bias-knowledge questions via attribution-based analysis, and selectively enhances them at inference time. This design enables strong debiasing while preserving general capabilities, generalizes across bias types and demographics, and is highly data efficient, requiring only a handful of simple yes/no questions and no retraining. Experiments across multiple benchmarks and LLMs demonstrate consistent state-of-the-art debiasing performance with minimal utility degradation. Data and code are available at https://github.com/JP-25/KnowBias.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害なステレオタイプを強化し、安全な配置を制限する社会的バイアスを示す。
既存のデバイアス法の多くは、パラメータやプロンプト、あるいは偏りのあるニューロンを変更することで抑制的パラダイムを採用するが、そのようなアプローチは脆く、弱い一般化可能であり、データ非効率であり、一般的な能力を劣化させる傾向がある。
本稿では, バイアス認識を符号化するニューロンを抑えるのではなく, バイアスを緩和し, バイアスを緩和する軽量かつ概念的に異なるフレームワークである「textbf{KnowBias}」を提案する。
KnowBiasは、属性に基づく分析を通じて、バイアス知識をコードするニューロンを識別し、推論時にそれらを選択的に強化する。
この設計は、一般的な能力を保ちながら強力なデバイアス化を可能にし、バイアスタイプや人口統計学にまたがって一般化し、データ効率が高く、単純なイエス/ノー質問をわずかに必要とせず、再トレーニングも不要である。
複数のベンチマークとLLMにわたる実験は、最小限のユーティリティ劣化を伴う一貫した最先端のデバイアス性能を示す。
データとコードはhttps://github.com/JP-25/KnowBias.comで入手できる。
関連論文リスト
- Adaptive Generation of Bias-Eliciting Questions for LLMs [18.608477560948003]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションに広くデプロイされており、世界中で数億に達しています。
我々は,性,人種,宗教などのセンシティブな属性に対して,現実的でオープンな質問を自動的に生成する,反現実的バイアス評価フレームワークを導入する。
また、非対称な拒絶や偏見の明示的な認識など、ユーザインタラクションにますます関係する異なる応答次元も捉えています。
論文 参考訳(メタデータ) (2025-10-14T13:08:10Z) - What's Not Said Still Hurts: A Description-Based Evaluation Framework for Measuring Social Bias in LLMs [8.219247185418821]
大規模言語モデル(LLM)は、しばしばトレーニングデータから受け継がれた社会的バイアスを示す。
本稿では、意味レベルでバイアスを評価するために設計された新しいデータセットであるDescription-based Bias Benchmark(DBB)を紹介する。
我々は6つの最先端LCMを分析し、モデルが項レベルでの応答バイアスを減少させる一方で、微妙な設定でバイアスを補強し続けていることを明らかにした。
論文 参考訳(メタデータ) (2025-02-27T04:25:54Z) - Debiasify: Self-Distillation for Unsupervised Bias Mitigation [19.813054813868476]
単純性バイアスはニューラルネットワークにおいて重要な課題となり、しばしばモデルがより単純な解を好んで、急激な相関による決定規則を不注意に学習する。
バイアスの性質に関する事前の知識を必要としない新しい自己蒸留アプローチであるDebiasifyを紹介します。
提案手法は, 複雑で高精度な特徴を含む深い層から, より単純な特性条件を持つ浅層へと, ネットワーク内の知識を伝達するために, 新たな蒸留損失を生かしている。
論文 参考訳(メタデータ) (2024-11-01T16:25:05Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Unsupervised Learning of Unbiased Visual Representations [12.690228982893]
ディープニューラルネットワークは、データセットバイアスの存在下で堅牢な表現を学ぶのに苦労することが多い。
この問題に対処するための既存のアプローチは、一般的にバイアス属性の明示的な監督、あるいはバイアスに関する事前の知識への依存を含む。
我々は3つの重要なステップを持つ完全に教師なしのデバイアス・フレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-26T10:51:50Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。