論文の概要: Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts
- arxiv url: http://arxiv.org/abs/2602.04398v1
- Date: Wed, 04 Feb 2026 10:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.475488
- Title: Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts
- Title(参考訳): 双方向バイアス属性:プロンプトを変更せずに大規模言語モデルを曖昧にする
- Authors: Yujie Lin, Kunquan Li, Yixuan Liao, Xiaoxin Chen, Jinsong Su,
- Abstract要約: 本研究では, 言語モデルにおいて, ステレオタイプ誘導語を検出し, ニューロンレベルのバイアスをもたらすフレームワークを提案する。
本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。
3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
- 参考スコア(独自算出の注目度): 29.864293711943038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities across a wide range of natural language processing tasks. However, their outputs often exhibit social biases, raising fairness concerns. Existing debiasing methods, such as fine-tuning on additional datasets or prompt engineering, face scalability issues or compromise user experience in multi-turn interactions. To address these challenges, we propose a framework for detecting stereotype-inducing words and attributing neuron-level bias in LLMs, without the need for fine-tuning or prompt modification. Our framework first identifies stereotype-inducing adjectives and nouns via comparative analysis across demographic groups. We then attribute biased behavior to specific neurons using two attribution strategies based on integrated gradients. Finally, we mitigate bias by directly intervening on their activations at the projection layer. Experiments on three widely used LLMs demonstrate that our method effectively reduces bias while preserving overall model performance. Code is available at the github link: https://github.com/XMUDeepLIT/Bi-directional-Bias-Attribution.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の自然言語処理タスクで印象的な機能を示している。
しかしながら、彼らのアウトプットはしばしば社会的偏見を示し、公正な懸念を提起する。
追加データセットの微調整やエンジニアリングのプロンプトといった既存のデバイアス手法は、スケーラビリティの問題に直面したり、マルチターンインタラクションにおけるユーザエクスペリエンスを損なう。
これらの課題に対処するために, 微調整や迅速な修正を必要とせず, ステレオタイプ誘導語の検出とLLMにおけるニューロンレベルのバイアスの寄与を行う枠組みを提案する。
本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。
次に、統合勾配に基づく2つの帰属戦略を用いて、特定のニューロンに対する偏りの挙動を推定する。
最後に、射影層におけるそれらの活性化を直接介入することでバイアスを軽減する。
3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
コードはgithubのリンクで入手できる。 https://github.com/XMUDeepLIT/Bi-directional-Bias-Attribution。
関連論文リスト
- KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement [5.243877326529689]
大きな言語モデル(LLM)は、有害なステレオタイプを強化し、安全な配置を制限する社会的バイアスを示す。
本研究では, バイアス認知をコードするニューロンを抑えるのではなく, バイアスを緩和するフレームワークであるKnowBiasを提案する。
KnowBiasは、属性に基づく分析を通じて、バイアス知識をコードするニューロンを識別し、推論時にそれらを選択的に強化する。
論文 参考訳(メタデータ) (2026-01-29T15:32:38Z) - Addressing Stereotypes in Large Language Models: A Critical Examination and Mitigation [0.0]
自然言語処理(NLP)の発展に伴い,近年,大規模言語モデル (LLM) が普及している。
本研究は, 生成人工知能(AI)の増大に伴い, LLMのバイアスに対処する必要があることを調査し, 強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的なベンチマークを用いて,BERT や GPT 3.5,ADA など,様々な世代モデルにおける様々なバイアスの存在を評価する。
論文 参考訳(メタデータ) (2025-11-18T05:43:34Z) - A Comprehensive Study of Implicit and Explicit Biases in Large Language Models [1.0555164678638427]
この研究は、生成的AIが増大する中で、大規模言語モデルにおけるバイアスに対処する必要があることを強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的ベンチマークを用いて,BERT や GPT 3.5 といった複数の生成モデルにおける様々なバイアスの存在を評価する。
その結果、微調整されたモデルでは性別バイアスに悩まされるが、人種バイアスの特定と回避には優れていた。
論文 参考訳(メタデータ) (2025-11-18T05:27:17Z) - Adaptive Generation of Bias-Eliciting Questions for LLMs [18.608477560948003]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションに広くデプロイされており、世界中で数億に達しています。
我々は,性,人種,宗教などのセンシティブな属性に対して,現実的でオープンな質問を自動的に生成する,反現実的バイアス評価フレームワークを導入する。
また、非対称な拒絶や偏見の明示的な認識など、ユーザインタラクションにますます関係する異なる応答次元も捉えています。
論文 参考訳(メタデータ) (2025-10-14T13:08:10Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - A Simple yet Effective Self-Debiasing Framework for Transformer Models [49.09053367249642]
現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。
本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-02T20:31:58Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。