論文の概要: Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2510.12229v1
- Date: Tue, 14 Oct 2025 07:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.226134
- Title: Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability
- Title(参考訳): 機械的解釈可能性による微調整LDMのモーラルバイアスの解析
- Authors: Bianca Raimondi, Daniela Dalbagno, Maurizio Gabbrielli,
- Abstract要約: 大型言語モデル(LLM)は、微調整中に人間のようなバイアスを内部化する。
意図性における道徳的バイアスであるノベ効果は、微調整されたLLMに現れる。
対応する事前訓練されたモデルからのアクティベーションをいくつかの重要なレイヤにパッチすることは、その効果を排除するのに十分です。
- 参考スコア(独自算出の注目度): 0.7710436567988378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to internalize human-like biases during finetuning, yet the mechanisms by which these biases manifest remain unclear. In this work, we investigated whether the well-known Knobe effect, a moral bias in intentionality judgements, emerges in finetuned LLMs and whether it can be traced back to specific components of the model. We conducted a Layer-Patching analysis across 3 open-weights LLMs and demonstrated that the bias is not only learned during finetuning but also localized in a specific set of layers. Surprisingly, we found that patching activations from the corresponding pretrained model into just a few critical layers is sufficient to eliminate the effect. Our findings offer new evidence that social biases in LLMs can be interpreted, localized, and mitigated through targeted interventions, without the need for model retraining.
- Abstract(参考訳): 大型言語モデル(LLM)は、微調整中に人間のようなバイアスを内在化することが示されているが、これらのバイアスが現れるメカニズムはいまだ不明である。
本研究では,意図判断における道徳的バイアスであるクノベ効果が微調整LDMに現れるか,モデルの特定の構成要素に遡ることができるかを検討した。
我々は3つのオープンウェイトLCMの層パッチ解析を行い、そのバイアスが微調整中に学習されるだけでなく、特定の層に局所化されることを実証した。
驚いたことに、私たちは、対応する事前訓練されたモデルからいくつかの重要なレイヤにパッチを合わせるだけで、その効果を排除できることがわかった。
本研究は, LLMにおける社会的バイアスが, モデル再訓練を必要とせず, 対象介入を通じて解釈, 局所化, 緩和できることを示す新しい証拠を提供する。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation [12.04811490937078]
フィードフォワードニューラルネットワーク(FFN)とアテンションヘッドが大規模言語モデル(LLM)のバイアスをもたらすかを検討する。
これらのバイアスを軽減するために,推定のみの手法であるUniBiasを導入し,バイアス付きFFNベクトルとアテンションヘッドを効果的に識別・除去する。
論文 参考訳(メタデータ) (2024-05-31T03:59:15Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。