論文の概要: Reasoning Fails Where Step Flow Breaks
- arxiv url: http://arxiv.org/abs/2604.06695v1
- Date: Wed, 08 Apr 2026 05:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.35114
- Title: Reasoning Fails Where Step Flow Breaks
- Title(参考訳): ステップフローが壊れた場所での推論の失敗
- Authors: Xiaoyu Xu, Yulan Pan, Xiaosong Yuan, Zhihong Shen, Minghao Su, Yuanhao Su, Xiaofeng Zhang,
- Abstract要約: 本稿では,段階的なスコアを質問-思考-終末軌道に沿ったステップ・ツー・ステップマップにプールするステップ・サリエンシを紹介する。
いくつかのモデルで、Shallow Lock-inとDeep Decayの2つの繰り返し発生する情報フロー障害が明らかになった。
我々は、Odds-Equal Bridgeを介してSteep-Saliencyによって測定された浅度なSteep-Saliencyパターンを調整し、Step Momentum Injectionを介して深層に小さなステップレベルの残差を追加するSteepFlowを提案する。
- 参考スコア(独自算出の注目度): 9.62455367512369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) that generate long chains of thought now perform well on multi-step math, science, and coding tasks. However, their behavior is still unstable and hard to interpret, and existing analysis tools struggle with such long, structured reasoning traces. We introduce Step-Saliency, which pools attention--gradient scores into step-to-step maps along the question--thinking--summary trajectory. Across several models, Step-Saliency reveals two recurring information-flow failures: Shallow Lock-in, where shallow layers over-focus on the current step and barely use earlier context, and Deep Decay, where deep layers gradually lose saliency on the thinking segment and the summary increasingly attends to itself and the last few steps. Motivated by these patterns, we propose StepFlow, a saliency-inspired test-time intervention that adjusts shallow saliency patterns measured by Step-Saliency via Odds-Equal Bridge and adds a small step-level residual in deep layers via Step Momentum Injection. StepFlow improves accuracy on math, science, and coding tasks across multiple LRMs without retraining, indicating that repairing information flow can recover part of their missing reasoning performance.
- Abstract(参考訳): 思考の長い連鎖を生成する大きな推論モデル(LRM)は、今では多段階数学、科学、コーディングタスクでうまく機能している。
しかし、それらの行動はいまだ不安定で解釈が困難であり、既存の分析ツールはそのような長く構造化された推論トレースに苦しむ。
本稿では,段階的なスコアを質問-思考-終末軌道に沿ったステップ・ツー・ステップマップにプールするステップ・サリエンシを紹介する。
いくつかのモデルで、Shallow Lock-inは、現在のステップで浅いレイヤをオーバーフォーカスし、それ以前のコンテキストをほとんど使用しないShallow Lock-inと、深いレイヤが徐々に思考セグメントのサプライアンスを失い、要約が自分自身と最後のステップにますます参加するDeep Decayである。
これらのパターンに触発されたSteepFlowは、Steep-SaliencyがOdds-Equal Bridgeを通じて測定した浅いSteep-Saliencyパターンを調整し、Step Momentum Injectionを介して深層に小さなステップレベルの残差を追加する。
StepFlowは、数学、科学、コーディングタスクの精度を、リトレーニングなしで向上させ、情報フローの修復が、欠落した推論性能の一部を回復できることを示す。
関連論文リスト
- DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows [20.319113495948294]
我々は多段階推論過程をノイズMDPとして定式化する。
DenoiseFlowは3つの調整段階を通じてプログレッシブなdenoisingを行うクローズドループフレームワークである。
論文 参考訳(メタデータ) (2026-02-28T08:11:38Z) - Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。
本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。
これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文 参考訳(メタデータ) (2025-10-13T17:02:41Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - StepWiser: Stepwise Generative Judges for Wiser Reasoning [52.32416311990343]
プロセス報酬モデルは、ステップバイステップのフィードバックを提供することによって、この問題に対処する。
近年の進歩に触発されて、分類タスクから推論タスク自体への段階的な報酬モデリングを再構築しました。
既存の手法よりも中間段階の精度が向上し, (ii) 訓練時の政策モデルの改善に利用でき, (iii) 推論時探索の改善が図られている。
論文 参考訳(メタデータ) (2025-08-26T17:45:05Z) - DISC: Dynamic Decomposition Improves LLM Inference Scaling [83.5708537758088]
LLMの推論スケーリング手法は、しばしば問題をステップに分解し、次にサンプリングし、次のステップを選択する。
本稿では,動的分解法を提案する。この手法は,解を適応的に自動分割し,トレースを推論中に管理可能なステップに分割する手法である。
論文 参考訳(メタデータ) (2025-02-23T20:37:32Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。