論文の概要: Steer2Edit: From Activation Steering to Component-Level Editing
- arxiv url: http://arxiv.org/abs/2602.09870v1
- Date: Tue, 10 Feb 2026 15:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.631065
- Title: Steer2Edit: From Activation Steering to Component-Level Editing
- Title(参考訳): Steer2Edit: Activation SteeringからComponent-Level Editingへ
- Authors: Chung-En Sun, Ge Yan, Zimo Wang, Tsui-Wei Weng,
- Abstract要約: 我々は、ステアリングベクトルをコンポーネントランク1の重み付けのための診断信号に変換する、トレーニング不要のフレームワークであるSteer2Editを提案する。
安全性のアライメント、属性緩和、推論効率などを通じて、Steer2Editは一貫して、より好ましい属性ユーティリティトレードオフを実現している。
全体として、Steer2Editは表現ステアリングとウェイト編集の間に原則化されたブリッジを提供する。
- 参考スコア(独自算出の注目度): 24.755027943286432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.
- Abstract(参考訳): ステアリング法は隠れ表現における意味的方向を特定することによって大きな言語モデル行動に影響を与えるが、典型的にはモデルの内部状態に固定されたグローバルな修正を適用する推論時のアクティベーション介入によって実現される。
このような介入が効果的である一方で、モデルコンポーネントの小さな不均一なサブセットによって多くの振る舞いが管理されているという事実を無視するため、強い制御の下では、好ましくない属性ユーティリティのトレードオフをしばしば引き起こす。
提案するSteer2Editは,ステアリングベクトルを推論時間制御信号からコンポーネントレベルのランク1重み付けのための診断信号に変換する,理論上基礎のない,トレーニング不要なフレームワークである。
Steer2Editは、生成中にステアリング方向を均一に注入する代わりに、個々のアテンションヘッドとMLPニューロン間の行動の影響を選択的に再分配し、標準のフォワードパスを保持し、最適化された並列推論と互換性を保つ解釈可能な編集を生成する。
安全アライメント、幻覚の緩和、推論の効率を超えて、Steer2Editは一貫してより好ましい属性ユーティリティのトレードオフを達成している: 下流のパフォーマンスが一致すれば、安全性は最大17.2%向上し、真実性は9.8%向上し、推論の長さは平均12.2%減少する。
全体として、Steer2Editは、ステアリング信号を解釈可能でトレーニング不要なパラメータ更新に変換することで、表現ステアリングとウェイト編集の間に原則化されたブリッジを提供する。
関連論文リスト
- Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Fusion Steering: Prompt-Specific Activation Control [0.0]
Fusion Steeringは、質問応答(QA)タスクのための大規模言語モデル(LLM)の事実精度を改善する。
このアプローチでは、フルレイヤのステアリングやセグメント化されたステアリングなど、フレキシブルなステアリング構成を導入している。
より厳格なSimpleQAルーブリックの下では、セグメンテッドステアリングは0.0%から13.1%に完全に正しい応答を加速する。
論文 参考訳(メタデータ) (2025-05-28T16:46:55Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。