論文の概要: A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy
- arxiv url: http://arxiv.org/abs/2601.18939v1
- Date: Mon, 26 Jan 2026 20:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.058667
- Title: A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy
- Title(参考訳): わずかに悪いニューロン : 解離と外科的矯正
- Authors: Claire O'Brien, Jessica Seto, Dristi Roy, Aditya Dwivedi, Sunishchal Dev, Kevin Zhu, Sean O'Brien, Ashwinee Panda, Ryan Lagasse,
- Abstract要約: 大規模言語モデルの振る舞いアライメントは、広範囲の微調整によって達成されることが多い。
本研究では,特定の行動に最も責任があるニューロンのみを特定し,更新するアライメント手法を提案する。
以上の結果から,スパークでニューロンレベルの更新は,フルモデルファインチューニングに代わる,スケーラブルで高精度な代替手段であることがわかった。
- 参考スコア(独自算出の注目度): 7.405817106579332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral alignment in large language models (LLMs) is often achieved through broad fine-tuning, which can result in undesired side effects like distributional shift and low interpretability. We propose a method for alignment that identifies and updates only the neurons most responsible for a given behavior, a targeted approach that allows for fine-tuning with significantly less data. Using sparse autoencoders (SAEs) and linear probes, we isolate the 3% of MLP neurons most predictive of a target behavior, decode them into residual space, and fine-tune only those neurons using gradient masking. We demonstrate this approach on the task of reducing sycophantic behavior, where our method matches or exceeds state-of-the-art performance on four benchmarks (Syco-Bench, NLP, POLI, PHIL) using Gemma-2-2B and 9B models. Our results show that sparse, neuron-level updates offer a scalable and precise alternative to full-model fine-tuning, remaining effective even in situations when little data is available
- Abstract(参考訳): 大規模言語モデル(LLM)における振舞いのアライメントは、広範に微調整することで達成されることが多く、分散シフトや低解釈可能性といった望ましくない副作用をもたらす。
本研究では,特定の行動に最も責任があるニューロンのみを同定・更新するアライメント手法を提案する。
スパースオートエンコーダ (SAEs) と線形プローブを用いて, 標的行動の予測に最も適したMLPニューロンの3%を分離し, 残余空間に分解し, 勾配マスキングを用いてそれらのニューロンのみを微調整する。
本研究では,Gemma-2Bおよび9Bモデルを用いた4つのベンチマーク(Syco-Bench, NLP, POLI, PHIL)において,本手法が最先端性能に適合する,あるいは超過するサイコファンティックな動作の低減を課題とする。
この結果から,スパークでニューロンレベルの更新は,データが少ない状況でも有効でありながら,フルモデルの微調整に代わる,スケーラブルで高精度な代替手段であることがわかった。
関連論文リスト
- Why Machine Learning Models Systematically Underestimate Extreme Values II: How to Fix It with LatentNN [0.2700171473617699]
減衰バイアスは、天文学的なデータ駆動モデルに影響を与える。
ニューラルネットワークは同じ減衰バイアスに悩まされていることを示す。
ネットワークパラメータと潜時入力値を協調的に最適化するLatentNNを提案する。
論文 参考訳(メタデータ) (2025-12-29T01:59:10Z) - Revisiting Large Language Model Pruning using Neuron Semantic Attribution [63.62836612864512]
人気プルーニング手法を用いて,24のデータセットと4つのタスクの評価を行った。
感情分類タスクでは,既存のプルーニング手法の大幅な性能低下がみられた。
本稿では,各ニューロンと特定の意味論を関連づけることを学ぶニューロン意味属性を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:52:17Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - DANAA: Towards transferable attacks with double adversarial neuron
attribution [37.33924432015966]
そこで我々は,DANAAと呼ばれる二重対向ニューロン帰属攻撃法を提案し,より正確な特徴重要度推定を行う。
目標は、個々のニューロンの重みを計測し、転送可能性にとってより重要な特徴を保持することである。
論文 参考訳(メタデータ) (2023-10-16T14:11:32Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。