論文の概要: Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning
- arxiv url: http://arxiv.org/abs/2605.21488v1
- Date: Wed, 20 May 2026 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.839175
- Title: Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning
- Title(参考訳): Equilibrium Reasoners: 学習担当者がスケーラブルなReasoningを可能にする
- Authors: Benhao Huang, Zhengyang Geng, Zico Kolter,
- Abstract要約: スケーラブル遅延推論はフィードフォワードモデルの精度を2.6%から、Sudoku-Extremeの99%以上に向上することを示す。
4万以上の層に展開することで、スケーラブルな遅延推論により、フィードフォワードモデルの2.6%から、Sudoku-Extremeの99%以上まで精度が向上する。
- 参考スコア(独自算出の注目度): 15.355823330309724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.
- Abstract(参考訳): 潜伏状態の反復更新によるテスト時間計算のスケーリングは、推論の強力なパラダイムとして現れている。
しかし、これらの反復モデルが記憶されたパターンを超えた一般化を可能にする内部メカニズムは、まだ不明である。
我々は、安定な固定点が有効な解に対応する潜在力学系を学習することで一般化可能な推論が生じると仮定する。
このプロセスをEquilibrium Reasoners (EqR) を通じて形式化し、外部検証やタスク固有の事前処理なしでテスト時間スケーリングを可能にする。
EqRは、複数の初期化から確率的軌道を集約することにより、深度、より多くの反復の実行、幅の2つの軸に沿って内部ダイナミクスをスケールする。
経験的に、テストタイムのスケーリングによるゲインは、ソリューションアラインなアトラクションに対する強い収束と強く結びついている。
このアトラクター・パースペクティブにより、ニューラルネットワークはタスクの難易度に基づいてテスト時間計算を適応的に割り当てることができる。
単純なケースは1~5回のイテレーションステップで収束しますが、難しいケースは大規模なテストタイムスケーリングの恩恵を受けます。
4万以上の層に展開することで、スケーラブルな遅延推論により、フィードフォワードモデルの2.6%から、Sudoku-Extremeの99%以上まで精度が向上する。
これらの結果から,学習されたアトラクタランドスケープは,反復潜在モデルにおける拡張性推論を理解する上で有用なメカニスティックレンズとなることが示唆された。
関連論文リスト
- Efficient Test-Time Scaling via Temporal Reasoning Aggregation [5.87118425760756]
本稿では,効率的なテスト時間スケーリングのためのトレーニングフリーフレームワークであるTRACEを提案する。
TRACEは、多段階証拠の時間的集約に基づいて推論を終了するタイミングを決定する。
TRACEは1~2%の精度を保ちながら平均25~30%の推論トークン使用率を低下させることを示した。
論文 参考訳(メタデータ) (2026-04-19T07:39:40Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute [5.37133760455631]
言語モデルの推論のために、テスト時のスケーリングを再検討し、根本的な疑問を投げかけます。複数の独立したチェーンを並列に実行するか、あるいは、逐次的なステップを通じて反復的に洗練されるチェーンを少なくする方がよいのでしょうか?
逐次スケーリングは、95.6%の構成で支配的な並列自己整合パラダイムを継続的に上回り、精度は46.7%まで向上する。
逆エントロピー重み付き投票(Inverse-entropy weighted voting)は、シーケンシャルスケーリングの精度をさらに高める新しいトレーニング不要な手法である。
論文 参考訳(メタデータ) (2025-11-04T06:48:34Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。