論文の概要: What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal
- arxiv url: http://arxiv.org/abs/2604.08524v1
- Date: Thu, 09 Apr 2026 17:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.06473
- Title: What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal
- Title(参考訳): 表象ステアリングを駆動するもの : ステアリング拒絶に関する機械的事例研究
- Authors: Stephen Cheng, Sarah Wiegreffe, Dinesh Manocha,
- Abstract要約: 異なるステアリング手法が同一層に印加した場合に機能的に交換可能な回路を利用することを示す。
その結果,操舵ベクトルは最大90~99%のスペーサー化が可能であり,ほとんどの性能は維持できることがわかった。
- 参考スコア(独自算出の注目度): 53.189667624047416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying steering vectors to large language models (LLMs) is an efficient and effective model alignment technique, but we lack an interpretable explanation for how it works-- specifically, what internal mechanisms steering vectors affect and how this results in different model outputs. To investigate the causal mechanisms underlying the effectiveness of steering vectors, we conduct a comprehensive case study on refusal. We propose a multi-token activation patching framework and discover that different steering methodologies leverage functionally interchangeable circuits when applied at the same layer. These circuits reveal that steering vectors primarily interact with the attention mechanism through the OV circuit while largely ignoring the QK circuit-- freezing all attention scores during steering drops performance by only 8.75% across two model families. A mathematical decomposition of the steered OV circuit further reveals semantically interpretable concepts, even in cases where the steering vector itself does not. Leveraging the activation patching results, we show that steering vectors can be sparsified by up to 90-99% while retaining most performance, and that different steering methodologies agree on a subset of important dimensions.
- Abstract(参考訳): 大規模言語モデル(LLM)にステアリングベクトルを適用することは効率的かつ効果的なモデルアライメント手法であるが、その動作方法に関する解釈可能な説明が欠けている。
ステアリングベクターの有効性の根底にある因果関係を考察するため, 拒否に関する包括的事例研究を行った。
マルチトークンアクティベーション・パッチ・フレームワークを提案し、同一層に印加した場合に異なるステアリング手法が機能的に交換可能な回路を利用することを示した。
これらの回路は、ステアリングベクトルが主にOV回路を介してアテンション機構と相互作用する一方で、QK回路を無視し、ステアリング中のすべてのアテンションスコアを凍結すると、2つのモデルファミリ間でわずか8.75%の性能が低下することを示している。
ステアリングされたOV回路の数学的分解により、ステアリングベクトル自体がそうでない場合でも意味論的に解釈可能な概念が明らかにされる。
その結果, 操舵ベクトルは最大90~99%のスペーサー化が可能であり, 異なる操舵手法が重要な次元のサブセットと一致していることが判明した。
関連論文リスト
- Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations [0.0]
ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。
トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。
操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
論文 参考訳(メタデータ) (2026-02-19T22:37:05Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。