論文の概要: Adaptive Parallel Monte Carlo Tree Search for Efficient Test-time Compute Scaling
- arxiv url: http://arxiv.org/abs/2604.00510v1
- Date: Wed, 01 Apr 2026 05:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.854945
- Title: Adaptive Parallel Monte Carlo Tree Search for Efficient Test-time Compute Scaling
- Title(参考訳): 効率的なテスト時間計算スケーリングのための適応並列モンテカルロ木探索
- Authors: Hongbeen Kim, Juhyun Lee, Sanghyeon Lee, Kwanghoon Choi, Jaehyuk Huh,
- Abstract要約: Monte Carlo Tree Search (MCTS) は、大規模言語モデルの推論性能を改善するための効率的なテスト時間計算スケーリング(TTCS)手法である。
正の早期終了のような既存の最適化は、有利なケースではレイテンシを低減するが、検索が有意義な進歩を伴わずに継続する場合には効果が低下する。
非生産的MCTSトラジェクトリを誘発する負の早期エグジットを導入し,資源の競合を軽減するために再資源化を促進する適応的な促進機構を導入する。
- 参考スコア(独自算出の注目度): 5.526787431354678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo Tree Search (MCTS) is an effective test-time compute scaling (TTCS) method for improving the reasoning performance of large language models, but its highly variable execution time leads to severe long-tail latency in practice. Existing optimizations such as positive early exit, reduce latency in favorable cases but are less effective when search continues without meaningful progress. We introduce {\it negative early exit}, which prunes unproductive MCTS trajectories, and an {\it adaptive boosting mechanism} that reallocates reclaimed computation to reduce resource contention among concurrent searches. Integrated into vLLM, these techniques substantially reduce p99 end-to-end latency while improving throughput and maintaining reasoning accuracy.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は、大規模な言語モデルの推論性能を改善する効果的なテスト時計算スケーリング(TTCS)手法であるが、その高度に可変な実行時間によって、実際に非常に長い待ち時間が発生する。
正の早期終了のような既存の最適化は、有利なケースではレイテンシを低減するが、検索が有意義な進歩を伴わずに継続する場合には効果が低下する。
本稿では,非生産的MCTSトラジェクトリを具現化する<it negative early exit}と,並列検索における資源競合を低減するために再資源化計算を再配置する<it Adaptive boosting mechanism}を紹介する。
vLLMに統合されたこれらの技術は、スループットを改善し、推論精度を維持するとともに、p99のエンドツーエンドのレイテンシを大幅に削減する。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling [55.026048429595384]
テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:57:43Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。
SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。
以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:03:16Z) - CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers [21.91815582658188]
大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。
圧倒的な複雑さは、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。
推定遅延を著しく低減するために並列に計算できる準独立層を同定することを提案する。
論文 参考訳(メタデータ) (2024-04-10T03:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。