論文の概要: Reasoning-Finetuning Repurposes Latent Representations in Base Models
- arxiv url: http://arxiv.org/abs/2507.12638v1
- Date: Wed, 16 Jul 2025 21:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.274856
- Title: Reasoning-Finetuning Repurposes Latent Representations in Base Models
- Title(参考訳): Reasoning-Finetuning Reposes Latent Representations in Base Models
- Authors: Jake Ward, Chuqiao Lin, Constantin Venhoff, Neel Nanda,
- Abstract要約: 微調整を推論することによって引き起こされる創発的な振る舞いであるバックトラックは、モデルの強化能力を推論する上で重要なメカニズムであることが示されている。
バックトラックの出現は,すでにベースモデルアクティベーションに存在している再利用方向によって部分的に駆動されていることを示す。
- 参考スコア(独自算出の注目度): 1.3286418032136589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backtracking, an emergent behavior elicited by reasoning fine-tuning, has been shown to be a key mechanism in reasoning models' enhanced capabilities. Prior work has succeeded in manipulating this behavior via steering vectors, but the underlying mechanism remains poorly understood. In this work, we show that the emergence of backtracking in DeepSeek-R1-Distill-Llama-8B is in part driven by a repurposed direction already present in base model activations. Specifically, we identify a direction in base Llama-3.1-8B's residual stream which systematically induces backtracking when used to steer the distilled reasoning model, and find that the effects of steering with this direction cannot be trivially explained by token-level attributes. We further find that this direction does not induce backtracking in the base model, suggesting that the reasoning finetuning process repurposes pre-existing representations to form new behavioral circuits. Additionally, we hypothesize that this direction is one of several which may work together to mediate backtracking. Our findings offer a compelling picture that reasoning-finetuned models repurpose pre-existing base model representations, rather than learn new capabilities from scratch.
- Abstract(参考訳): 微調整を推論することによって引き起こされる創発的な振る舞いであるバックトラックは、モデルの強化能力を推論する上で重要なメカニズムであることが示されている。
以前の研究は、ステアリングベクターを介してこの動作を操作することに成功したが、基礎となるメカニズムはいまだに理解されていない。
本研究では,DeepSeek-R1-Distill-Llama-8Bにおけるバックトラックの出現が,ベースモデルアクティベーションにすでに存在する再利用方向によって部分的に進行していることを示す。
具体的には, Llama-3.1-8B の残留流路の方向を抽出し, 蒸留推理モデルを用いた場合の逆追跡を系統的に誘導し, この方向による操舵の効果をトークンレベルの属性で簡単に説明できないことを発見した。
さらに、この方向はベースモデルにおけるバックトラックを誘導しないので、推論の微調整プロセスは既存の表現を再利用して新しい動作回路を形成することを示唆している。
さらに、この方向はバックトラッキングを仲介するために協調して働く可能性があるいくつかのうちの1つであると仮定する。
我々の発見は、既存のベースモデル表現をスクラッチから学習するのではなく、推論に精通したモデルで再利用する、という説得力のあるイメージを提供する。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Understanding Reasoning in Thinking Language Models via Steering Vectors [9.417134634193074]
我々はDeepSeek-R1-Distillモデルにおいて、特定の推論動作を分析し、操作する。
これらの挙動はモデルの活性化空間における線形方向によって媒介され、ステアリングベクトルを用いて制御できることを実証する。
提案手法は,思考モデルにおける推論過程を制御的かつ解釈可能な方法で操る実用的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-22T20:45:26Z) - From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
論文 参考訳(メタデータ) (2025-06-13T20:40:13Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - Mitigating Overthinking in Large Reasoning Models via Manifold Steering [32.666911833023526]
大規模推論モデル(LRMs)は、推論中に過剰思考として知られる現象を示す。
低次元活性化多様体に操舵方向を優雅に投影する新しいアプローチであるマニフォールドステアリングを提案する。
本手法は,数個の数式ベンチマークの精度を維持・改善しながら,出力トークンを最大71%削減する。
論文 参考訳(メタデータ) (2025-05-28T14:39:26Z) - Steering LLM Reasoning Through Bias-Only Adaptation [4.486093197820339]
強化学習の微調整は新しい機能を創出しないが、すでに訓練済みのネットワークに潜んでいる推論パターンを強化する。
我々はこの主張を、ステアリングベクトルをトレーニングすることで検証する: 選択された隠れた特徴を付加的に増幅する層ワイドバイアス。
GSM8KとMATHベンチマークによる4つのベースモデルの実験では、ステアリングベクターが回復し、場合によっては完全に調整されたベクターの精度を超えることが示されている。
論文 参考訳(メタデータ) (2025-05-24T13:55:38Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。
エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。