論文の概要: Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection
- arxiv url: http://arxiv.org/abs/2601.19375v1
- Date: Tue, 27 Jan 2026 08:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.258655
- Title: Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection
- Title(参考訳): 選択的ステアリング:識別層選択によるノーム保存制御
- Authors: Quy-Anh Dang, Chris Ngo,
- Abstract要約: 大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
- 参考スコア(独自算出の注目度): 1.7802147489386628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in alignment, large language models (LLMs) remain vulnerable to adversarial attacks that elicit harmful behaviors. Activation steering techniques offer a promising inference-time intervention approach, but existing methods suffer from critical limitations: activation addition requires careful coefficient tuning and is sensitive to layer-specific norm variations, while directional ablation provides only binary control. Recent work on Angular Steering introduces continuous control via rotation in a 2D subspace, but its practical implementation violates norm preservation, causing distribution shift and generation collapse, particularly in models below 7B parameters. We propose Selective Steering, which addresses these limitations through two key innovations: (1) a mathematically rigorous norm-preserving rotation formulation that maintains activation distribution integrity, and (2) discriminative layer selection that applies steering only where feature representations exhibit opposite-signed class alignment. Experiments across nine models demonstrate that Selective Steering achieves 5.5x higher attack success rates than prior methods while maintaining zero perplexity violations and approximately 100\% capability retention on standard benchmarks. Our approach provides a principled, efficient framework for controllable and stable LLM behavior modification. Code: https://github.com/knoveleng/steering
- Abstract(参考訳): アライメントの大幅な進歩にもかかわらず、大きな言語モデル(LLM)は有害な行動を引き起こす敵の攻撃に弱いままである。
アクティベーションステアリング技術は、期待できる推論時間介入手法を提供するが、既存の手法では、アクティベーション加算には注意深い係数調整が必要であり、層固有のノルム変動に敏感であり、指向性アブレーションはバイナリ制御のみを提供する。
Angular Steeringの最近の研究は、2Dサブスペースでの回転による連続的な制御を導入しているが、その実践的実装はノルム保存に違反しており、特に7Bパラメータ以下のモデルでは、分散シフトと生成の崩壊を引き起こす。
本稿では,(1)活性化分布の整合性を維持する数学的に厳密なノルム保存回転定式化,(2)特徴表現が反対符号のクラスアライメントを示す場合にのみステアリングを適用する識別層選択という2つの重要なイノベーションを通じて,これらの制限に対処する選択ステアリングを提案する。
9つのモデルにわたる実験により、選択ステアリングは従来の手法よりも5.5倍高い攻撃成功率を達成し、標準ベンチマークでのパープレキシティ違反はゼロであり、約100\%の能力保持を維持できることが示された。
我々のアプローチは、制御可能で安定したLCM動作修正のための、原則的で効率的なフレームワークを提供する。
コード:https://github.com/knoveleng/steering
関連論文リスト
- Angular Steering: Behavior Control via Rotation in Activation Space [1.3400719989424488]
Angular Steeringは、振る舞い変調の新しいフレキシブルな方法である。
固定された2次元部分空間内で回転活性化によって作用する。
拒否やコンプライアンスといった行動に対して,継続的かつきめ細かいコントロールを提供する。
論文 参考訳(メタデータ) (2025-10-30T08:23:35Z) - PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration [17.225716209866086]
ウェブ上での大規模言語モデル(LLM)のための位置対応型アクティベーションステアリングフレームワークを提案する。
PIXELは2つのビューからプロパティ整列部分空間を学習し、制約された幾何学的目的を通して介入強度を選択する。
PIXELは、モデル一般機能を維持しながら、属性アライメントを一貫して改善する。
論文 参考訳(メタデータ) (2025-10-11T13:13:34Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。