論文の概要: Internal states before wait modulate reasoning patterns
- arxiv url: http://arxiv.org/abs/2510.04128v1
- Date: Sun, 05 Oct 2025 10:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.475455
- Title: Internal states before wait modulate reasoning patterns
- Title(参考訳): 待ち前の内部状態は推論パターンを変調する
- Authors: Dmitrii Troitskii, Koyena Pal, Chris Wendler, Callum Stuart McDougall, Neel Nanda,
- Abstract要約: 我々は、DeepSeek-R1-Distill-Llama-8Bの複数の層でクロスコーダを訓練し、クロスコーダ設定に潜時帰属技術を導入する。
待ちトークンの確率の促進と抑制に関係した機能の小さなセットを見つける。
同定された特徴の多くは、実際に推論プロセスに関連があることが示されています。
- 参考スコア(独自算出の注目度): 14.272989515787351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has shown that a significant driver of performance in reasoning models is their ability to reason and self-correct. A distinctive marker in these reasoning traces is the token wait, which often signals reasoning behavior such as backtracking. Despite being such a complex behavior, little is understood of exactly why models do or do not decide to reason in this particular manner, which limits our understanding of what makes a reasoning model so effective. In this work, we address the question whether model's latents preceding wait tokens contain relevant information for modulating the subsequent reasoning process. We train crosscoders at multiple layers of DeepSeek-R1-Distill-Llama-8B and its base version, and introduce a latent attribution technique in the crosscoder setting. We locate a small set of features relevant for promoting/suppressing wait tokens' probabilities. Finally, through a targeted series of experiments analyzing max activating examples and causal interventions, we show that many of our identified features indeed are relevant for the reasoning process and give rise to different types of reasoning patterns such as restarting from the beginning, recalling prior knowledge, expressing uncertainty, and double-checking.
- Abstract(参考訳): 以前の研究によると、推論モデルにおけるパフォーマンスの重大な要因は、推論と自己修正の能力である。
これらの推論トレースに特徴的なマーカーはトークン・ウェイトであり、しばしばバックトラックのような推論の振る舞いを示す。
このような複雑な振舞いにもかかわらず、モデルがなぜこの特定の方法で推論するかどうかを正確には理解していない。
本稿では,モデルの待ちトークンに先行する潜伏者が,その後の推論プロセスを調整するための関連情報を含むかどうかを問う。
我々は、DeepSeek-R1-Distill-Llama-8Bの複数の層とそのベースバージョンでクロスコーダを訓練し、クロスコーダ設定に潜在属性技術を導入する。
待ちトークンの確率の促進と抑制に関係した機能の小さなセットを見つける。
最後に、最大活性化例と因果介入を解析する一連の実験を通して、同定された特徴の多くは、推論プロセスに実際に関係していることを示し、初期から再開し、事前の知識を思い出し、不確実性を表現し、二重チェックするなど、様々なタイプの推論パターンを生じさせることを示した。
関連論文リスト
- Entropy After $\langle \texttt{/Think} \rangle$ for reasoning model early exiting [38.93424884988798]
正しい解に到達した後も、回答を再検討し続けながら、大きな推論モデルが過大評価されていることを示す。
We propose Entropy After /Think> (EAT) for monitoring and decide whether to exit reasoning early。
EATは、正確性を損なうことなく、トークン使用量を13~21%削減する。
論文 参考訳(メタデータ) (2025-09-30T16:59:37Z) - From Reasoning to Answer: Empirical, Attention-Based and Mechanistic Insights into Distilled DeepSeek R1 Models [48.01707022738742]
蒸留した3種類のDeepSeek R1モデルにおいて、推論と回答生成の相互作用を3段階に分けて検討する。
明示的な推論を含めることで、さまざまな領域での回答品質が一貫して向上することを示す。
以上の結果から,重要な推論トークンに対する摂動が最終回答を確実に変更できることが示唆された。
論文 参考訳(メタデータ) (2025-09-28T06:32:21Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - The Geometry of Self-Verification in a Task-Specific Reasoning Model [45.669264589017665]
我々はCountDownタスクでDeepSeek R1のレシピを使ってモデルをトレーニングする。
モデルがどのように出力を検証するかをリバースエンジニアリングするために、トップダウンおよびボトムアップの分析を行います。
論文 参考訳(メタデータ) (2025-04-19T18:40:51Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。