論文の概要: Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions
- arxiv url: http://arxiv.org/abs/2605.10664v1
- Date: Mon, 11 May 2026 14:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.908447
- Title: Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions
- Title(参考訳): Prompt-Activation Duality:Attention-Levelインターベンションによるアクティベーションステアリングの改善
- Authors: Diancheng Kang, Zheyuan Liu, Ningshan Ma, Yue Huang, Zhaoxuan Tan, Meng Jiang,
- Abstract要約: アクティベーションステアリングは、推論時に内部表現に方向を追加することによって、言語モデルの振る舞いを制御する。
標準的な残差ストリームステアリングは、ステートフルな対話で失敗する可能性がある。
本稿では,自己注意へのシステムプロンプト貢献からステアリング信号を抽出するGated Cropped Attention-Delta steeringを提案する。
- 参考スコア(独自算出の注目度): 35.249678322001294
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Activation steering controls language model behavior by adding directions to internal representations at inference time, but standard residual-stream steering can fail in stateful dialogue. We identify KV-cache contamination as a key failure mode: steered token states are stored and repeatedly reused, turning a local perturbation into cumulative coherence degradation. To address this challenge, we propose Gated Cropped Attention-Delta steering (GCAD), which extracts steering signals from system-prompt contributions to self-attention and applies them with token-level gating. Across persona-steering experiments, GCAD preserves trait control while substantially improving long-horizon coherence. On the main multi-turn benchmark, GCAD improves average coherence drift from -18.6 to -1.9 and raises turn-10 trait expression from 78.0 to 93.1. These results suggest that activation steering becomes more reliable when interventions follow the prompt-mediated pathways that models already use for behavioral control.
- Abstract(参考訳): アクティベーションステアリングは、推論時に内部表現に方向を追加することで言語モデルの振る舞いを制御するが、標準の残ストリームステアリングはステートフルな対話で失敗する可能性がある。
我々は, KV-cache汚染をキー障害モードとして認識し, ステアリングトークン状態の保存と再利用を繰り返し, 局所摂動を累積コヒーレンス劣化に変換する。
この課題に対処するため,Gated Cropped Attention-Delta steering (GCAD)を提案する。
ペルソナステアリング実験全体を通して、GCADは特性制御を保ちながら、長距離コヒーレンスを大幅に改善する。
メインのマルチターンベンチマークでは、GCADは平均コヒーレンスドリフトを -18.6 から -1.9 に改善し、ターン-10 特性表現を 78.0 から 93.1 に引き上げている。
これらの結果は、モデルがすでに行動制御に使用しているプロンプト介在経路に介入が従えば、アクティベーションステアリングの信頼性が向上することを示している。
関連論文リスト
- Don't Lose Focus: Activation Steering via Key-Orthogonal Projections [23.93187817296646]
アクティベーションステアリングはしばしば推論と検索性能を低下させる。
キー直交射影(Key-Orthogonal Projections, SKOP)は、ステアリング効果を排除せずに、有害な注意の引き抜きを制限する。
この結果から,バニラステアリングアプローチが有効でない長文検索環境では,注意再帰を回避することにより,SKOPは頑健な性能を維持することが可能であることが示唆された。
論文 参考訳(メタデータ) (2026-05-07T14:29:18Z) - Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout [55.19244743715421]
Driver-WMは、ドライバー中心の潜在世界モデルで、アウトキャビンのトラフィックコンテキストを考慮に入れたインキャビンのダイナミクスをロールアウトする。
身体のキネマティクス予測を補助的な行動的・感情的意味認識と統合する。
ドライバ-WMは、反応性の高いハイモーション操作のための堅牢な長距離幾何学的予測を与える。
論文 参考訳(メタデータ) (2026-05-06T16:30:48Z) - What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal [53.189667624047416]
異なるステアリング手法が同一層に印加した場合に機能的に交換可能な回路を利用することを示す。
その結果,操舵ベクトルは最大90~99%のスペーサー化が可能であり,ほとんどの性能は維持できることがわかった。
論文 参考訳(メタデータ) (2026-04-09T17:57:14Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection [8.819278296219071]
大規模言語モデル(LLM)は複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術はモデル内部を操作することを目的としているが、オーバーステアリングの危険性がある。
余分なデータセットを使わずにKVキャッシュをスケーリングすることで、操舵強度を動的に調節する新しい操舵法であるDIRECTERを導入する。
論文 参考訳(メタデータ) (2026-03-06T09:49:32Z) - Steer2Edit: From Activation Steering to Component-Level Editing [24.755027943286432]
我々は、ステアリングベクトルをコンポーネントランク1の重み付けのための診断信号に変換する、トレーニング不要のフレームワークであるSteer2Editを提案する。
安全性のアライメント、属性緩和、推論効率などを通じて、Steer2Editは一貫して、より好ましい属性ユーティリティトレードオフを実現している。
全体として、Steer2Editは表現ステアリングとウェイト編集の間に原則化されたブリッジを提供する。
論文 参考訳(メタデータ) (2026-02-10T15:15:15Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。