論文の概要: Dynamical Systems Theory Behind a Hierarchical Reasoning Model
- arxiv url: http://arxiv.org/abs/2603.22871v1
- Date: Tue, 24 Mar 2026 07:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.35088
- Title: Dynamical Systems Theory Behind a Hierarchical Reasoning Model
- Title(参考訳): 階層的推論モデルの背後にある力学系理論
- Authors: Vasiliy A. Es'kin, Mikhail E. Smorkalov,
- Abstract要約: 契約マッピングモデル(CMM)は、離散的推論を連続的ニューラル正規および微分方程式(NODE/NSDE)に変換する新しいアーキテクチャである。
CMMは最先端の精度93.7%に達し、27M-Extremeベンチマークと85.4%のSudooku-Extremeベンチマークを上回っている。
結果は、数学的に厳密な潜在力学が、人工推論におけるブルートフォーススケーリングを効果的に置き換えることができることを証明し、極端なパラメータ効率のための新たなフロンティアを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language models (LLMs) primarily rely on linear sequence generation and massive parameter counts, yet they severely struggle with complex algorithmic reasoning. While recent reasoning architectures, such as the Hierarchical Reasoning Model (HRM) and Tiny Recursive Model (TRM), demonstrate that compact recursive networks can tackle these tasks, their training dynamics often lack rigorous mathematical guarantees, leading to instability and representational collapse. We propose the Contraction Mapping Model (CMM), a novel architecture that reformulates discrete recursive reasoning into continuous Neural Ordinary and Stochastic Differential Equations (NODEs/NSDEs). By explicitly enforcing the convergence of the latent phase point to a stable equilibrium state and mitigating feature collapse with a hyperspherical repulsion loss, the CMM provides a mathematically grounded and highly stable reasoning engine. On the Sudoku-Extreme benchmark, a 5M-parameter CMM achieves a state-of-the-art accuracy of 93.7 %, outperforming the 27M-parameter HRM (55.0 %) and 5M-parameter TRM (87.4 %). Remarkably, even when aggressively compressed to an ultra-tiny footprint of just 0.26M parameters, the CMM retains robust predictive power, achieving 85.4 % on Sudoku-Extreme and 82.2 % on the Maze benchmark. These results establish a new frontier for extreme parameter efficiency, proving that mathematically rigorous latent dynamics can effectively replace brute-force scaling in artificial reasoning.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、主に線形シーケンス生成と大量のパラメータ数に依存しているが、複雑なアルゴリズムの推論に苦戦している。
Hierarchical Reasoning Model (HRM) や Tiny Recursive Model (TRM) のような最近の推論アーキテクチャは、コンパクトな再帰的ネットワークがこれらのタスクに対処できることを示したが、それらのトレーニング力学は厳密な数学的保証を欠いていることが多く、不安定性と表現的崩壊をもたらす。
本稿では,離散再帰的推論を連続的ニューラル正規および確率微分方程式(NODE/NSDE)に再構成する新しいアーキテクチャであるContraction Mapping Model(CMM)を提案する。
潜在相点の安定平衡状態への収束を明示的に強制し、超球面反発損失を伴う特徴崩壊を緩和することにより、CMMは数学的に基底的で高度に安定な推論エンジンを提供する。
Sudoku-Extremeベンチマークでは、5MパラメータCMMが93.7%の最先端精度を実現し、27MパラメータHRM(55.0%)と5MパラメータTRM(87.4%)を上回っている。
注目すべきは、わずか0.26Mパラメータの超小さなフットプリントに積極的に圧縮されたとしても、CMMは強い予測力を保ち、Sudoku-Extremeでは85.4 %、Mazeベンチマークでは82.2 %に達することである。
これらの結果は、数学的に厳密な潜在力学が、人工推論におけるブルートフォーススケーリングを効果的に置き換えることができることを証明し、極端なパラメータ効率のための新たなフロンティアを確立した。
関連論文リスト
- Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion [0.0]
パラメトリックモデルから深層生成ネットワークへの既存のアプローチは、重み付き分布、無視可能な線形自己相関、永続的なボラティリティクラスタリングを同時に再現するのに苦労している。
本稿では,連続的過剰成長率をLaplacequantile-defined market stateに離散化するハイブリッド隠れマルコフフレームワークを提案する。
パラメータは直接遷移カウントによって推定され、Baum-Welch EMアルゴリズムをバイパスする。
論文 参考訳(メタデータ) (2026-03-10T20:06:53Z) - Tiny Autoregressive Recursive Models [48.902738432071935]
Tiny Recursive Models (TRMs) は最近のARC-AGIで顕著な性能を示した。
本稿では、自己回帰TRMを提案し、小さな自己回帰タスクで評価する。
期待に反して、完全なAutoregressive TRMアーキテクチャによる信頼性の高いパフォーマンス向上は見つからない。
論文 参考訳(メタデータ) (2026-03-09T08:22:45Z) - CoT-X: An Adaptive Framework for Cross-Model Chain-of-Thought Transfer and Optimization [5.857877898558651]
CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の問題解決能力を高めるが、かなりの推論オーバーヘッドをもたらす。
本稿では、適応的推論要約フレームワークを用いて、異なるスケールとアーキテクチャのモデル間での効率的なCoT転送について検討する。
論文 参考訳(メタデータ) (2025-11-07T22:35:31Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Robust Iterative Learning Hidden Quantum Markov Models [0.7493761475572844]
隠れ量子マルコフモデル(HQMM)は古典的な隠れマルコフモデルを量子領域に拡張する。
既存のHQMM学習アルゴリズムは、データ破損に敏感であり、敵の摂動下で堅牢性を確保するメカニズムが欠如している。
本稿では,制御された観測系列を逆向きに破損させることにより,ロバスト性解析を形式化するHQMMを提案する。
論文 参考訳(メタデータ) (2025-10-27T11:48:44Z) - From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision [49.59309446816251]
既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。
本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。
AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
論文 参考訳(メタデータ) (2025-09-29T06:52:35Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - HPD: Hybrid Projection Decomposition for Robust State Space Models on Analog CIM Hardware [4.727184737671133]
ステートスペースモデル(SSM)は、伝統的なシーケンスモデルに代わる効率的な代替品である。
その行列乗法への依存は、計算メモリアーキテクチャ(CIM)に理想的である。
我々は,最後の出力射影層に対するハイブリッド射影分解戦略であるHPDを提案する。
論文 参考訳(メタデータ) (2025-08-16T06:34:14Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Efficient hierarchical Bayesian inference for spatio-temporal regression
models in neuroimaging [6.512092052306553]
例えば、M/EEG逆問題、タスクベースのfMRI分析のためのニューラルネットワークの符号化、温度モニタリングスキームなどがある。
モデルパラメータとノイズの内在的時間的ダイナミクスをモデル化した,新しい階層型フレキシブルベイズフレームワークを考案する。
論文 参考訳(メタデータ) (2021-11-02T15:50:01Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。