論文の概要: Stabilizing Recurrent Dynamics for Test-Time Scalable Latent Reasoning in Looped Language Models
- arxiv url: http://arxiv.org/abs/2605.26733v1
- Date: Tue, 26 May 2026 09:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.779996
- Title: Stabilizing Recurrent Dynamics for Test-Time Scalable Latent Reasoning in Looped Language Models
- Title(参考訳): ループ言語モデルにおけるテスト時間スケーラブル遅延推論のためのリカレントダイナミクスの安定化
- Authors: Xiao-Wen Yang, Ziyu Han, Xi-Hua Zhang, Wen-Da Wei, Jie-Jing Shao, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: Looped Language Models (LoopLMs) は、深さ反復による効率的な潜伏推論を可能にするが、信頼性の低いテスト時間スケーリングの振る舞いを示す。
STARS (ST-driven Recurrent Scaling) は、潜在状態が減少的に安定な固定点に近づくことを制約するトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 24.301295080069476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looped Language Models (LoopLMs) enable efficient latent reasoning through depth recurrence, yet exhibit unreliable test-time scaling behavior: performance often peaks at a certain iteration depth and then collapses with further recurrence. Through latent dynamics analysis, we find an inherent trade-off between stability and effectiveness in existing architectures and strategies. By conceptualizing reasoning as uncertainty reduction, we propose that convergence toward stable fixed points while preserving effectiveness represents a promising way. To this end, we propose STARS (STAbility-driven Recurrent Scaling), a training framework that constrains latent states to approach asymptotically stable fixed points. This is realized via efficient Jacobian Spectral Radius Regularization with random loop sampling, enabling STARS to maximize effectiveness while ensuring rigorous stability. Experiments on arithmetic tasks show that STARS achieves reliable test-time scaling, and on complex mathematical reasoning it substantially mitigates performance degradation as recurrence depth increases while also improving peak performance.
- Abstract(参考訳): ループ言語モデル(LoopLMs)は、深度反復による効率的な潜時推論を可能にするが、信頼性の低いテスト時間スケーリングの振る舞いを示す。
潜在力学解析を通じて、既存のアーキテクチャや戦略において、安定性と有効性の間に固有のトレードオフを見出す。
推論を不確実性低減として概念化することにより、有効性を維持しながら安定な固定点への収束が有望な方法であることを示す。
この目的のために我々は,潜伏状態が漸近的に安定な固定点に近づくことを制約するトレーニングフレームワークであるSTARS(STAbility-driven Recurrent Scaling)を提案する。
これは、ランダムループサンプリングによる効率的なJacobian Spectral Radius正則化によって実現され、STARSは厳密な安定性を確保しながら有効性を最大化できる。
算術的タスクの実験では、STARSは信頼性の高いテスト時間スケーリングを実現し、複雑な数学的推論では、繰り返し深さが増加するにつれて性能劣化を著しく軽減し、ピーク性能も向上する。
関連論文リスト
- Think Twice Before You Write -- an Entropy-based Decoding Strategy to Enhance LLM Reasoning [32.332197731504046]
デコード戦略は、大きな言語モデルの推論能力を形成する上で、中心的な役割を果たす。
グレディ復号やビームサーチといった従来の手法は、しばしばエラーの伝播に悩まされる。
本稿では,トークンレベルの適応性を世代に導入するエントロピー誘導復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T23:08:26Z) - Fast Rerandomization for Balancing Covariates in Randomized Experiments: A Metropolis-Hastings Framework [12.297315057225532]
本稿では,精度と妥当性を維持しつつ,10~10,000倍の高速化を実現するアルゴリズムを提案する。
提案アルゴリズムであるPSRSRRは,精度と妥当性を維持しつつ,10~10,000倍の高速化を実現する。
論文 参考訳(メタデータ) (2026-02-07T16:40:27Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Adaptive Variance-Penalized Continual Learning with Fisher Regularization [0.0]
本研究は、パラメータ分散のフィッシャー重み付き非対称正規化を統合する、新しい連続学習フレームワークを提案する。
本手法はパラメータの不確かさに応じて正規化強度を動的に変調し,安定性と性能を向上させる。
論文 参考訳(メタデータ) (2025-08-15T21:49:28Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [92.6187727249868]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - Robust Reinforcement Learning under Diffusion Models for Data with Jumps [40.2559197706778]
本稿では,MSBVE(Mean-Square Bipower Variation Error)アルゴリズムを提案する。
我々はまず,連続時間RLで一般的に使用される平均平方TDエラー(MSTDE)アルゴリズムを再検討し,状態ダイナミクスのジャンプ処理における制限を強調した。
提案したMSBVEアルゴリズムは平均2乗2乗変動誤差を最小化し,ジャンプを伴うSDEを特徴とする環境におけるMSTDEよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-18T16:17:34Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。