論文の概要: Fine-Grained Activation Steering: Steering Less, Achieving More
- arxiv url: http://arxiv.org/abs/2602.04428v1
- Date: Wed, 04 Feb 2026 11:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.492309
- Title: Fine-Grained Activation Steering: Steering Less, Achieving More
- Title(参考訳): ファイングラインド・アクティベーション・ステアリング:ステアリングの削減、さらに達成
- Authors: Zijian Feng, Tianjiao Li, Zixiao Zhu, Hanzhang Zhou, Junlang Qian, Li Zhang, Jia Jim Deryl Chua, Lee Onn Mak, Gee Wah Ng, Kezhi Mao,
- Abstract要約: アクティベーションステアリングは、大規模言語モデル(LLM)の振る舞いを変更するためのコスト効率のパラダイムとして登場した。
ブロックレベルのアクティベーションは本質的に異種であり,有益であり,無関係であり,有害であることを示す。
我々はAUSteerを提案する。AUSteerはAUレベルのより微細な粒度で動作するシンプルで効率的な方法である。
- 参考スコア(独自算出の注目度): 33.680685349571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering has emerged as a cost-effective paradigm for modifying large language model (LLM) behaviors. Existing methods typically intervene at the block level, steering the bundled activations of selected attention heads, feedforward networks, or residual streams. However, we reveal that block-level activations are inherently heterogeneous, entangling beneficial, irrelevant, and harmful features, thereby rendering block-level steering coarse, inefficient, and intrusive. To investigate the root cause, we decompose block activations into fine-grained atomic unit (AU)-level activations, where each AU-level activation corresponds to a single dimension of the block activation, and each AU denotes a slice of the block weight matrix. Steering an AU-level activation is thus equivalent to steering its associated AU. Our theoretical and empirical analysis show that heterogeneity arises because different AUs or dimensions control distinct token distributions in LLM outputs. Hence, block-level steering inevitably moves helpful and harmful token directions together, which reduces efficiency. Restricting intervention to beneficial AUs yields more precise and effective steering. Building on this insight, we propose AUSteer, a simple and efficient method that operates at a finer granularity of the AU level. AUSteer first identifies discriminative AUs globally by computing activation momenta on contrastive samples. It then assigns adaptive steering strengths tailored to diverse inputs and selected AU activations. Comprehensive experiments on multiple LLMs and tasks show that AUSteer consistently surpasses advanced baselines while steering considerably fewer activations, demonstrating that steering less achieves more.
- Abstract(参考訳): アクティベーションステアリングは、大規模言語モデル(LLM)の振る舞いを変更するためのコスト効率のパラダイムとして登場した。
既存の方法は通常ブロックレベルで介入し、選択された注目ヘッド、フィードフォワードネットワーク、または残ストリームの束縛されたアクティベーションを操る。
しかし,ブロックレベルのアクティベーションは本質的に不均一であり,有益であり,無関係であり,有害な特徴であり,それによってブロックレベルのステアリングが粗く,非効率で,侵入的であることがわかった。
根本原因を明らかにするため,ブロック活性化を粒度原子単位(AU)レベルに分解し,各AUレベル活性化がブロック活性化の1次元に対応し,各AUがブロック重み行列のスライスを表す。
したがって、AUレベルのアクティベーションをステアリングすることは、関連するAUをステアリングすることと同値である。
我々の理論的および経験的分析は、異なるAUや次元がLLM出力の異なるトークン分布を制御するため、異質性が発生することを示している。
したがって、ブロックレベルのステアリングは必然的に有用かつ有害なトークン方向を一緒に移動させ、効率を低下させる。
有利なAUに対する介入を制限することは、より正確で効果的なステアリングをもたらす。
この知見に基づいて,AUSteerを提案する。AUSteerは,AUレベルのより微細な粒度で動作する,シンプルで効率的な手法である。
AUSteerはまず、対照的なサンプル上でアクティベーションモータを計算することで、世界規模で差別的なAUを識別する。
その後、多様な入力に合わせて適応的なステアリング強度を割り当て、選択されたAUアクティベーションを割り当てる。
複数のLSMとタスクに関する総合的な実験により、AUSteerは高度のベースラインを一貫して上回りながら、アクティベーションをかなり少なくし、ステアリングがより少ないことを示す。
関連論文リスト
- RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning [53.35553353785948]
問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。
その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。
本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T15:39:38Z) - Scaling laws for activation steering with Llama 2 models and refusal mechanisms [0.13194391758295113]
CAAは、モデルの残留ストリームベクトル空間において、コントラッシブペアを用いて望ましい「方向」を見つけることで機能する。
本稿では, Llama 2 モデル (7B, 13B, 70B) を用いたモデルスケールCAAの有効性について検討する。
論文 参考訳(メタデータ) (2025-07-15T22:21:18Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [64.15238674475619]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。