論文の概要: Small Vectors, Big Effects: A Mechanistic Study of RL-Induced Reasoning via Steering Vectors
- arxiv url: http://arxiv.org/abs/2509.06608v1
- Date: Mon, 08 Sep 2025 12:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.121262
- Title: Small Vectors, Big Effects: A Mechanistic Study of RL-Induced Reasoning via Steering Vectors
- Title(参考訳): 小さなベクトルと大きな影響:ステアリングベクトルによるRL誘起推論の力学的検討
- Authors: Viacheslav Sinii, Nikita Balagansky, Yaroslav Aksenov, Vadim Kurochkin, Daniil Laptev, Gleb Gerasimov, Alexey Gorbatovski, Boris Shaposhnikov, Daniil Gavrilov,
- Abstract要約: ベースモデルの残留流路に挿入された軽量ステアリングベクトルについて検討し,強化学習目標を用いて訓練を行った。
i) 最後の層ステアリングベクトルは、第1生成トークンに集中したトークン置換バイアスのように振舞い、"To"や"Step"のようなトークンを一貫して押し上げる。
これらの結果は、推論学習によって引き起こされる行動変化を解釈するための原則的枠組みを確立する。
- 参考スコア(独自算出の注目度): 12.331740215947677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mechanisms by which reasoning training reshapes language-model computations remain poorly understood. We study lightweight steering vectors inserted into the base model's residual stream and trained with a reinforcement-learning objective, which can match full fine-tuning performance while retaining the interpretability of small, additive interventions. Using logit-lens readouts, path patching, and circuit analyses, we analyze two models and find: (i) the last-layer steering vector behaves like a token-substitution bias concentrated on the first generated token, consistently boosting tokens such as "To" and "Step"; and (ii) the penultimate-layer steering vector leaves attention patterns largely unchanged and instead acts through the MLP and unembedding, preferentially up-weighting process words and structure symbols. These results establish a principled framework for interpreting the behavioral changes induced by reasoning training.
- Abstract(参考訳): 推論学習が言語モデル計算を満足させるメカニズムはいまだよく理解されていない。
基礎モデルの残留流に挿入された軽量なステアリングベクトルについて, 微調整性能に適合し, 追加的介入の解釈可能性を維持しつつ, 強化学習目標を用いて訓練を行った。
logit-lens readouts, path patching, circuit analysis を用いて2つのモデルを分析し,以下の結果を得た。
(i)最後の層ステアリングベクトルは、第1生成トークンに集中したトークン置換バイアスのように振舞い、「To」や「Step」のようなトークンを一貫して押し上げる。
2) 垂直層ステアリングベクトルは, 注意パターンが大きく変化せず, MLPとアンエンベディングを介し, 優先的に重み付けされたプロセスワードと構造記号として機能する。
これらの結果は、推論学習によって引き起こされる行動変化を解釈するための原則的枠組みを確立する。
関連論文リスト
- Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations [19.539276425108987]
この研究は線形結合導出法を提案し、タスクベクトルは元のベクトルの線形結合によって形成された単一のコンテキスト内実証として機能することを示した。
本研究では,三重項型プロンプトを訓練した線形変圧器において,タスクベクトルが自然に現れることを示す。
本研究では,高階マッピングにおけるタスクベクトルの故障を予測し,実用的なLCM上で確認する。
論文 参考訳(メタデータ) (2025-06-10T17:59:31Z) - Steering LLM Reasoning Through Bias-Only Adaptation [12.246105935814683]
基本重みの全てを凍結しながら、強化学習による1層あたりの1d$次元ステアリングベクトルのトレーニングは、数学的推論タスクにおいて完全にRLで調整された推論モデルの精度と一致することを示す。
論文 参考訳(メタデータ) (2025-05-24T13:55:38Z) - Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。
我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。
得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文 参考訳(メタデータ) (2025-05-16T18:23:10Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。
の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
論文 参考訳(メタデータ) (2025-02-26T06:13:01Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。