論文の概要: Small Vectors, Big Effects: A Mechanistic Study of RL-Induced Reasoning via Steering Vectors
- arxiv url: http://arxiv.org/abs/2509.06608v3
- Date: Wed, 01 Oct 2025 08:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.74105
- Title: Small Vectors, Big Effects: A Mechanistic Study of RL-Induced Reasoning via Steering Vectors
- Title(参考訳): 小さなベクトルと大きな影響:ステアリングベクトルによるRL誘起推論の力学的検討
- Authors: Viacheslav Sinii, Nikita Balagansky, Gleb Gerasimov, Daniil Laptev, Yaroslav Aksenov, Vadim Kurochkin, Alexey Gorbatovski, Boris Shaposhnikov, Daniil Gavrilov,
- Abstract要約: ベースモデルの残留流路に挿入された軽量ステアリングベクトルについて検討し,強化学習目標を用いて訓練を行った。
i)最後の層ステアリングベクトルは、第1生成トークンに集中したトークン置換バイアスのように振舞い、"To"や"Step"のようなトークンを一貫して増加させる。
また, (i) ステアリングベクトルが他のモデルに遷移し, (ii) 独立に訓練された場合, (iii) 適応的なトークンワイドスケーリングの下で意味のあるプロンプトセグメントに集中して, 層間を結合することを示す。
- 参考スコア(独自算出の注目度): 12.331740215947677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mechanisms by which reasoning training reshapes LLMs' internal computations remain unclear. We study lightweight steering vectors inserted into the base model's residual stream and trained with a reinforcement-learning objective. These vectors match full fine-tuning performance while preserving the interpretability of small, additive interventions. Using logit-lens readouts and path-patching analyses on two models, we find that (i) the last-layer steering vector acts like a token-substitution bias concentrated on the first generated token, consistently boosting tokens such as "To" and "Step"; (ii) the penultimate-layer vector leaves attention patterns largely intact and instead operates through the MLP and unembedding, preferentially up-weighting process words and structure symbols; and (iii) middle layers de-emphasize non-English tokens. Next, we show that a SAE isolates features associated with correct generations. We also show that steering vectors (i) transfer to other models, (ii) combine across layers when trained in isolation, and (iii) concentrate magnitude on meaningful prompt segments under adaptive token-wise scaling. Taken together, these results deepen understanding of how trained steering vectors shape computation and should inform future work in activation engineering and the study of reasoning models.
- Abstract(参考訳): LLMの内部計算を推論するメカニズムはいまだ不明である。
ベースモデルの残留流路に挿入された軽量ステアリングベクトルについて検討し,強化学習目標を用いて訓練を行った。
これらのベクトルは、小さな追加的介入の解釈可能性を維持しながら、完全な微調整性能と一致する。
2つのモデルにおけるロジットレンズの読み出しとパスパッチ解析を用いて、そのことが分かる。
(i)最後の層ステアリングベクトルは、第1生成トークンに集中したトークン置換バイアスのように振舞い、「To」や「Step」のようなトークンを一貫して押し上げる。
二 垂直層ベクトルは、注意パターンをほとんど無傷で残し、その代わりに、MLP及びアンエンベディングを介して、優先的に重み付けされたプロセスワード及び構造記号を介して動作させる。
(三)中層は非英語のトークンを強調しない。
次に、SAEが正しい世代に関連付けられた特徴を分離することを示す。
また ステアリングベクトルは
(i)他のモデルへの転送
(二)単体で修行する際に層をまたいだもの
三 適応的トークンワイドスケーリングの下で有意義なプロンプトセグメントに集中すること。
まとめると、これらの結果は、訓練された操舵ベクトルがどのように計算を形作るかの理解を深め、アクティベーションエンジニアリングと推論モデルの研究における今後の研究を知らせるべきである。
関連論文リスト
- Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations [19.539276425108987]
この研究は線形結合導出法を提案し、タスクベクトルは元のベクトルの線形結合によって形成された単一のコンテキスト内実証として機能することを示した。
本研究では,三重項型プロンプトを訓練した線形変圧器において,タスクベクトルが自然に現れることを示す。
本研究では,高階マッピングにおけるタスクベクトルの故障を予測し,実用的なLCM上で確認する。
論文 参考訳(メタデータ) (2025-06-10T17:59:31Z) - Steering LLM Reasoning Through Bias-Only Adaptation [12.246105935814683]
基本重みの全てを凍結しながら、強化学習による1層あたりの1d$次元ステアリングベクトルのトレーニングは、数学的推論タスクにおいて完全にRLで調整された推論モデルの精度と一致することを示す。
論文 参考訳(メタデータ) (2025-05-24T13:55:38Z) - Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。
我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。
得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文 参考訳(メタデータ) (2025-05-16T18:23:10Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。
の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。