論文の概要: Parallel Test-Time Scaling for Latent Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.07745v1
- Date: Thu, 09 Oct 2025 03:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.84787
- Title: Parallel Test-Time Scaling for Latent Reasoning Models
- Title(参考訳): 遅延推論モデルの並列テスト時間スケーリング
- Authors: Runyang You, Yongqi Li, Meng Liu, Wenjie Wang, Liqiang Nie, Wenjie Li,
- Abstract要約: 並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
- 参考スコア(独自算出の注目度): 58.428340345068214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel test-time scaling (TTS) is a pivotal approach for enhancing large language models (LLMs), typically by sampling multiple token-based chains-of-thought in parallel and aggregating outcomes through voting or search. Recent advances in latent reasoning, where intermediate reasoning unfolds in continuous vector spaces, offer a more efficient alternative to explicit Chain-of-Thought, yet whether such latent models can similarly benefit from parallel TTS remains open, mainly due to the absence of sampling mechanisms in continuous space, and the lack of probabilistic signals for advanced trajectory aggregation. \ This work enables parallel TTS for latent reasoning models by addressing the above issues. For sampling, we introduce two uncertainty-inspired stochastic strategies: Monte Carlo Dropout and Additive Gaussian Noise. For aggregation, we design a Latent Reward Model (LatentRM) trained with step-wise contrastive objective to score and guide latent reasoning. Extensive experiments and visualization analyses show that both sampling strategies scale effectively with compute and exhibit distinct exploration dynamics, while LatentRM enables effective trajectory selection. Together, our explorations open a new direction for scalable inference in continuous spaces. Code released at https://github.com/YRYangang/LatentTTS.
- Abstract(参考訳): 並列テストタイムスケーリング(TTS)は、大規模言語モデル(LLM)を強化するための重要なアプローチであり、通常、複数のトークンベースのチェーンを並列にサンプリングし、投票や検索を通じて結果を集約する。
連続ベクトル空間に中間的推論が展開する潜時推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に代わるより効率的な代替手段を提供するが、そのような潜時モデルが並列TSSの恩恵を受けることができるかどうかは、主に連続空間におけるサンプリング機構の欠如と、進行軌跡集合に対する確率的信号の欠如により、同様に開のままである。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
サンプリングにはモンテカルロ・ドロップアウトと付加ガウスノイズの2つの不確実性に着想を得た確率的戦略を導入する。
集約のために、段階的に対照的な目標を学習し、遅延推論を導出するための遅延リワードモデル(LatentRM)を設計する。
広範囲にわたる実験と可視化分析により、両方のサンプリング戦略が計算によって効果的にスケールし、異なる探索ダイナミックスを示す一方で、LatntRMは効果的な軌道選択を可能にしていることが示された。
我々の探索は、連続空間におけるスケーラブルな推論のための新しい方向を開く。
https://github.com/YRYangang/LatentTTS.comで公開されている。
関連論文リスト
- CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Continuous Chain of Thought Enables Parallel Exploration and Reasoning [39.37806940098749]
連続価値トークン(CoT2)による思考の連鎖は、本質的に探索能力を必要とする論理的推論タスクによって動機付けられている。
我々は、CoT2が複数の離散トレースを並列に追跡するのにどのように役立つかを示す。
また, 埋込次元が十分であれば, サブセット和問題(subset sum problem)を解くCoT2ベースの一層変圧器も提供する。
論文 参考訳(メタデータ) (2025-05-29T16:58:28Z) - Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [37.179289850042764]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
本稿では,これらの2つの手法を,CountDown と Sudoku の2つの難解な推論タスクに対して体系的に比較する。
意外なことに、シーケンシャルな検索はCountDown上で並列サンプリングを過小評価するが、Sudoku上では性能が優れており、バックトラッキングは普遍的に有益ではないことを示唆している。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation [40.861314212279474]
メタスタブルマルコフプロセスとしてチェーン・オブ・シント(CoT)生成による推論時間計算について検討する。
スパースエッジに報酬を与える検索プロトコルの実装は、異なるクラスタに到達するための期待するステップ数を減らし、CoTを改善することを実証する。
また,検索によって得られる情報を利用して,より優れた推論モデルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-02T18:19:14Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。