論文の概要: Don't Lose Focus: Activation Steering via Key-Orthogonal Projections
- arxiv url: http://arxiv.org/abs/2605.06342v1
- Date: Thu, 07 May 2026 14:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.901609
- Title: Don't Lose Focus: Activation Steering via Key-Orthogonal Projections
- Title(参考訳): フォーカスを失うな - キー直交投影によるアクティベーションステアリング
- Authors: Haoyan Luo, Mateo Espinosa Zarlenga, Mateja Jamnik,
- Abstract要約: アクティベーションステアリングはしばしば推論と検索性能を低下させる。
キー直交射影(Key-Orthogonal Projections, SKOP)は、ステアリング効果を排除せずに、有害な注意の引き抜きを制限する。
この結果から,バニラステアリングアプローチが有効でない長文検索環境では,注意再帰を回避することにより,SKOPは頑健な性能を維持することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 23.93187817296646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation steering controls LLM behaviour towards target behaviour by intervening in internal representations, yet it often degrades reasoning and retrieval performance. We argue that a primary cause of this trade-off is attention rerouting: steering vectors alter query-key matching, shifting attention away from contextually important tokens toward less informative ones. To address this, we propose Steering via Key-Orthogonal Projections (SKOP), a steering method that constrains harmful attention rerouting without eliminating steering efficacy. SKOP achieves this by preserving attention patterns on a small set of focus tokens the model relies on for reasoning and retrieval, while allowing redistribution among less critical tail tokens. Across multiple steering benchmarks, we show that SKOP achieves the best joint steering-utility trade-off, reducing utility degradation by 5-7x while retaining over 95% of vanilla steering efficacy. Our results further suggest that, in long-context retrieval settings where vanilla steering approaches are ineffective, SKOP can maintain robust performance by avoiding attention rerouting.
- Abstract(参考訳): アクティベーションステアリングは、内部表現を介在することでLLM動作を目標行動に向けるが、推論や検索性能を低下させることが多い。
ベクタのステアリングによってクエリキーマッチングが変更され、コンテキスト的に重要なトークンから、より情報に乏しいトークンへと注目が移る。
そこで我々は, キーオルソゴン投影法(SKOP)によるステアリングを提案し, ステアリング効果をなくすことなく, 有害な注意の引き抜きを抑制するステアリング法を提案する。
SKOPは、モデルが推論と検索に頼っている焦点トークンの小さなセットに注意パターンを保存することで、これを実現する。
複数のステアリングベンチマークにおいて,SKOPは最高のジョイントステアリング・ユーティリティ・トレードオフを実現し,バニラステアリング効果の95%以上を維持しつつ,ユーティリティ劣化を5~7倍に低減することを示した。
さらに,バニラステアリングアプローチが有効でない長文検索環境では,注意再帰を回避して,SKOPが頑健な性能を維持することが示唆された。
関連論文リスト
- Steer Like the LLM: Activation Steering that Mimics Prompting [0.0]
大規模な言語モデルは、プロンプトやアクティベーションの介入を通じて、推論時に操縦することができる。
アクティベーションステアリング法は、しばしばプロンプトベースのアプローチに比べて性能が劣る。
本稿では,アクティベーションステアリングの一形態として,迅速なステアリングを定式化するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T15:59:42Z) - What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal [53.189667624047416]
異なるステアリング手法が同一層に印加した場合に機能的に交換可能な回路を利用することを示す。
その結果,操舵ベクトルは最大90~99%のスペーサー化が可能であり,ほとんどの性能は維持できることがわかった。
論文 参考訳(メタデータ) (2026-04-09T17:57:14Z) - Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection [8.819278296219071]
大規模言語モデル(LLM)は複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術はモデル内部を操作することを目的としているが、オーバーステアリングの危険性がある。
余分なデータセットを使わずにKVキャッシュをスケーリングすることで、操舵強度を動的に調節する新しい操舵法であるDIRECTERを導入する。
論文 参考訳(メタデータ) (2026-03-06T09:49:32Z) - Spectral Attention Steering for Prompt Highlighting [37.585557690347905]
既存のアテンションステアリング法では、フルアテンションマトリックスの明示的な保存が必要である。
本稿では,この課題に対処するトレーニングフリーステアリング手法であるSEKA(Spectral Editing Key Amplification)を紹介する。
我々はこれを、プロンプトのセマンティックな意図に基づいて専門家のサブスペースを動的に結合するために、トレーニング不要なルーティング機構を使用するクエリ適応型であるAdaptive SEKA(AdaSEKA)に拡張する。
論文 参考訳(メタデータ) (2026-03-01T21:35:09Z) - Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。
広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。
ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-02T06:56:22Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。