論文の概要: Targeted Neuron Modulation via Contrastive Pair Search
- arxiv url: http://arxiv.org/abs/2605.12290v1
- Date: Tue, 12 May 2026 15:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.980799
- Title: Targeted Neuron Modulation via Contrastive Pair Search
- Title(参考訳): コントラストピアサーチによる標的ニューロンの制御
- Authors: Sam Herring, Jake Naviasky, Karan Malhotra,
- Abstract要約: ニューロンレベルの介入は、残留ストリーム法の品質トレードオフを伴わずに、信頼性の高い行動ステアリングを可能にする。
ベースモデルにも同様な遅延層識別構造があることがわかったが、これらのニューロンの操舵は内容シフトのみを生成する。
より広範に,アライメント微調整は,既存の識別構造をスパースかつターゲット可能な拒絶ゲートに変換することを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are instruction-tuned to refuse harmful requests, but the mechanisms underlying this behavior remain poorly understood. Popular steering methods operate on the residual stream and degrade output coherence at high intervention strengths, limiting their practical use. We introduce contrastive neuron attribution (CNA), which identifies the 0.1% of MLP neurons whose activations most distinguish harmful from benign prompts, requiring only forward passes with no gradients or auxiliary training. In instruct models, ablating the discovered circuit reduces refusal rates by over 50% on a standard jailbreak benchmark while preserving fluency and non-degeneracy across all steering strengths. Applying CNA to matched base and instruct models across Llama and Qwen architectures (from 1B to 72B parameters), we find that base models contain similar late-layer discrimination structures but steering these neurons produces only content shifts, not behavioral change. These results demonstrate that neuron-level intervention enables reliable behavioral steering without the quality tradeoffs of residual-stream methods. More broadly, our findings suggest that alignment fine-tuning transforms pre-existing discrimination structure into a sparse, targetable refusal gate.
- Abstract(参考訳): 言語モデルは有害な要求を拒否するように命令調整されているが、この振る舞いのメカニズムはいまだに理解されていない。
一般的なステアリング法は残留流で動作し、高い介入強度で出力コヒーレンスを低下させ、実用性を制限する。
本研究は,MLPニューロンの0.1%の活性化が良性のプロンプトと最も有意な区別をし,勾配や補助訓練を伴わない前方通過のみを必要とするコントラッシブニューロン属性(CNA)を導入する。
インストラクションモデルでは、検出された回路を破壊することにより、標準的なジェイルブレイクベンチマークで拒絶率を50%以上削減すると同時に、すべてのステアリング強度の流速と非退化を保っている。
CNA をLlama および Qwen アーキテクチャ全体 (1B から 72B パラメータまで) のモデルに適用すると、ベースモデルに類似の後期層識別構造が含まれているが、これらのニューロンの操舵は、行動の変化ではなく、コンテンツシフトのみを生成する。
これらの結果から, ニューロンレベルの介入は, 残留流路法の品質トレードオフを伴わずに, 信頼性の高い行動ステアリングを可能にすることが示唆された。
より広範に,アライメント微調整は,既存の識別構造をスパースかつターゲット可能な拒絶ゲートに変換することを示唆している。
関連論文リスト
- NeuroFlake: A Neuro-Symbolic LLM Framework for Flaky Test Classification [0.0]
同じバージョンのコードに対して非決定論的パス/フェイル動作を示す、不安定なテストは、信頼できる回帰テストに重大な課題を生じさせる。
我々は,現実世界のデータセット上でフレキテストの分類を行う新しいニューロ・シンボリック・フレームワークであるNeuroFlakeを紹介する。
論文 参考訳(メタデータ) (2026-05-12T03:56:40Z) - Neuron-Anchored Rule Extraction for Large Language Models via Contrastive Hierarchical Ablation [5.880505093493663]
説明可能なAI(XAI)の重要な目標は、大きな言語モデル(LLM)の決定ロジックを象徴的な形で表現することである。
我々は、アゴニストと呼ばれるスパースニューロンを効率よく局在させることにより、LSM回路における規則抽出を基礎とするパイプラインであるMechaRuleを紹介する。
論文 参考訳(メタデータ) (2026-05-04T18:27:37Z) - From Refusal Tokens to Refusal Control: Discovering and Steering Category-Specific Refusal Directions [7.599054770990825]
我々はLlama 3 8Bの分類的拒絶トークンを微調整したバージョンを活用し、微細な拒絶動作に対する推論時間制御を可能にする。
提案手法は,推論中の拒絶の方向か方向かを決定する軽量プローブを用いて分類的ステアリングベクターを構築した。
ベンチマーク全体において、カテゴリー的ステアリングベクトルとローランクの組み合わせは、良性プロンプトに対する過剰な拒絶を一貫して減少させ、有害なプロンプトに対する拒絶率を増大させる。
論文 参考訳(メタデータ) (2026-03-09T06:37:16Z) - A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy [7.405817106579332]
大規模言語モデルの振る舞いアライメントは、広範囲の微調整によって達成されることが多い。
本研究では,特定の行動に最も責任があるニューロンのみを特定し,更新するアライメント手法を提案する。
以上の結果から,スパークでニューロンレベルの更新は,フルモデルファインチューニングに代わる,スケーラブルで高精度な代替手段であることがわかった。
論文 参考訳(メタデータ) (2026-01-26T20:20:13Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。