論文の概要: Form Follows Function: Recursive Stem Model
- arxiv url: http://arxiv.org/abs/2603.15641v1
- Date: Tue, 03 Mar 2026 00:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.332188
- Title: Form Follows Function: Recursive Stem Model
- Title(参考訳): Form Follows Function: Recursive Stem Model
- Authors: Navid Hakimi,
- Abstract要約: 本稿では,計算量とNP問題を解くためにRecursive Stem Model (RSM)を導入する。
RSMは、初期イテレーションを分離された"ウォームアップ"ステップとして扱い、最終ステップでのみ損失を適用します。
Sudoku-Extremeでは、RSMはテスト時間計算で精度97.5%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursive reasoning models such as Hierarchical Reasoning Model (HRM) and Tiny Recursive Model (TRM) show that small, weight-shared networks can solve compute-heavy and NP puzzles by iteratively refining latent states, but their training typically relies on deep supervision and/or long unrolls that increase wall-clock cost and can bias the model toward greedy intermediate behavior. We introduce Recursive Stem Model (RSM), a recursive reasoning approach that keeps the TRM-style backbone while changing the training contract so the network learns a stable, depth-agnostic transition operator. RSM fully detaches the hidden-state history during training, treats early iterations as detached "warm-up" steps, and applies loss only at the final step. We further grow the outer recursion depth $H$ and inner compute depth $L$ independently and use a stochastic outer-transition scheme (stochastic depth over $H$) to mitigate instability when increasing depth. This yields two key capabilities: (i) $>20\times$ faster training than TRM while improving accuracy ($\approx 5\times$ reduction in error rate), and (ii) test-time scaling where inference can run for arbitrarily many refinement steps ($\sim 20,000 H_{\text{test}} \gg 20 H_{\text{train}}$), enabling additional "thinking" without retraining. On Sudoku-Extreme, RSM reaches 97.5% exact accuracy with test-time compute (within ~1 hour of training on a single A100), and on Maze-Hard ($30 \times 30$) it reaches ~80% exact accuracy in ~40 minutes using attention-based instantiation. Finally, because RSM implements an iterative settling process, convergence behavior provides a simple, architecture-native reliability signal: non-settling trajectories warn that the model has not reached a viable solution and can be a guard against hallucination, while stable fixed points can be paired with domain verifiers for practical correctness checks.
- Abstract(参考訳): Hierarchical Reasoning Model (HRM) や Tiny Recursive Model (TRM) のような再帰的推論モデルでは、小さくて重みのあるネットワークは、潜伏状態の反復精製によって計算量の多いNPパズルを解くことができるが、それらのトレーニングは通常、壁面のコストを増大させる深い監督や長いアンロールに依存し、強欲な中間行動にモデルを偏らせる可能性がある。
我々は、トレーニング契約を変更しながらTRMスタイルのバックボーンを維持する再帰的推論手法であるRecursive Stem Model (RSM)を導入し、ネットワークが安定した深さに依存しない遷移演算子を学習する。
RSMはトレーニング中の隠れた状態履歴を完全に取り除き、初期イテレーションを分離された"ウォームアップ"ステップとして扱い、最終ステップでのみ損失を適用します。
さらに、外部再帰深さ$H$と内部計算深さ$L$を独立に成長させ、確率的外部遷移スキーム(確率的深さ$H$以上)を用いて、深さを増大させる際の不安定性を緩和する。
これは2つの重要な能力をもたらす。
(i)$>20\times$TRMより高速なトレーニングが可能で、精度が向上している(「5\times$エラー率の削減」)。
(ii) 任意の数の洗練ステップに対して推論を実行可能なテスト時間スケーリング(\sim 20,000 H_{\text{test}} \gg 20 H_{\text{train}}$)。
Sudoku-Extremeでは、RSMはテストタイム計算で97.5%の精度(A100では1時間程度)に達し、Maze-Hard(30 \times 30$)では、注意ベースのインスタンス化を使用して約40分で精度が約80%に達する。
最後に、RSMは反復的沈降過程を実装しているため、収束挙動は単純でアーキテクチャ固有の信頼性信号を提供する:非セッティング軌道は、モデルが実行可能な解決策に達しておらず幻覚に対するガードであり、安定な固定点が実際の正当性チェックのためにドメイン検証器とペアリング可能であることを警告する。
関連論文リスト
- $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving [75.29519604607111]
検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論性能を高めることを約束している。
チェーン・オブ・シークレット(CoT)の初期方向や品質が最適以下である場合、モデルが正しい答えに到達できないことがよく示される。
再解決による強化学習 (Reinforcement Learning with Re-solving, Re$2$) を導入し, LLM が非生産的推論経路を柔軟に放棄し,必要ならば解法を再開することを学ぶ。
論文 参考訳(メタデータ) (2026-03-07T13:17:46Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Statistical-Computational Trade-offs for Recursive Adaptive Partitioning Estimators [11.77169131123735]
我々は,高次元回帰のためのグリーディアルゴリズムが局所最適点において立ち往生していることを示す。
低い推定誤差を達成するために、greedyトレーニングには$exp(Omega(d))$が必要であることを示す。
この二分法は、平均場状態における勾配降下(SGD)を訓練した2層ニューラルネットワークを反映する。
論文 参考訳(メタデータ) (2024-11-07T03:11:53Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。