論文の概要: Every Rollout Counts: Optimal Resource Allocation for Efficient Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2506.15707v1
- Date: Fri, 30 May 2025 09:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.77447
- Title: Every Rollout Counts: Optimal Resource Allocation for Efficient Test-Time Scaling
- Title(参考訳): すべてのロールアウトカウント: 効率的なテスト時間スケーリングのための最適なリソース割り当て
- Authors: Xinglin Wang, Yiwei Li, Shaoxiong Feng, Peiwen Yuan, Yueqi Zhang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: テスト時間スケーリング(TTS)による大規模言語モデル(LLM)の性能向上
探索中に最も効果的にロールアウト予算を割り当てる方法はまだ探索されていないが、多くの場合、テスト時に計算の効率が悪くなる。
本稿では,このバイアスを緩和する最適手法として,指向性資源割当(DORA)を提案する。
- 参考スコア(独自算出の注目度): 19.673388630963807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Scaling (TTS) improves the performance of Large Language Models (LLMs) by using additional inference-time computation to explore multiple reasoning paths through search. Yet how to allocate a fixed rollout budget most effectively during search remains underexplored, often resulting in inefficient use of compute at test time. To bridge this gap, we formulate test-time search as a resource allocation problem and derive the optimal allocation strategy that maximizes the probability of obtaining a correct solution under a fixed rollout budget. Within this formulation, we reveal a core limitation of existing search methods: solution-level allocation tends to favor reasoning directions with more candidates, leading to theoretically suboptimal and inefficient use of compute. To address this, we propose Direction-Oriented Resource Allocation (DORA), a provably optimal method that mitigates this bias by decoupling direction quality from candidate count and allocating resources at the direction level. To demonstrate DORA's effectiveness, we conduct extensive experiments on challenging mathematical reasoning benchmarks including MATH500, AIME2024, and AIME2025. The empirical results show that DORA consistently outperforms strong baselines with comparable computational cost, achieving state-of-the-art accuracy. We hope our findings contribute to a broader understanding of optimal TTS for LLMs.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、追加の推論時間計算を用いて、検索を通じて複数の推論経路を探索することにより、Large Language Models(LLMs)の性能を改善する。
しかし、探索中に最も効果的にロールアウト予算を割り当てる方法はまだ探索されていないため、多くの場合、テスト時に計算の効率が悪くなる。
このギャップを埋めるため、資源配分問題としてテスト時間探索を定式化し、固定されたロールアウト予算の下で正しい解を得る確率を最大化する最適な割り当て戦略を導出する。
この定式化の中では、既存の探索手法の中核的な制限が明らかにされている: 解レベルの割当は、より多くの候補を持つ推論方向を好む傾向にあり、理論的に最適で非効率な計算の使用につながる。
そこで本研究では,このバイアスを軽減するために,候補数から方向品質を分離し,方向レベルで資源を割り当てることにより,そのバイアスを緩和する方向指向資源割当(DORA)を提案する。
DORAの有効性を実証するため,MATH500, AIME2024, AIME2025など,挑戦的な数学的推論ベンチマークについて広範な実験を行った。
実験結果から、DORAは高いベースラインを同等の計算コストで一貫して上回り、最先端の精度を達成していることが示された。
LLM の最適 TTS のより広範な理解に寄与することを願っている。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - ABoN: Adaptive Best-of-N Alignment [19.22348775001393]
Inference-time計算をより効率的に割り当てるBest-of-Nアライメントのためのプロンプト適応戦略を提案する。
我々の手法はシンプルで実用的で、どのLM/RM組み合わせとも互換性がある。
論文 参考訳(メタデータ) (2025-05-17T15:24:48Z) - $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z) - ATA: Adaptive Task Allocation for Efficient Resource Management in Distributed Machine Learning [54.08906841213777]
非同期手法は分散機械学習における計算の並列化の基礎となる。
本稿では,不均一かつランダムな計算時間分布に適応するATA(Adaptive Task Allocation)を提案する。
ATAは最適なタスク割り当てを識別し、計算時間に関する事前の知識を持つメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2025-02-02T12:22:26Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - BORA: Bayesian Optimization for Resource Allocation [0.19116784879310028]
本稿では,資源の最適配分を,より一般的な問題,特に時間とともに資源の可利用性が変化する問題に拡張することを提案する。
ベイズ最適化のための3つのアルゴリズムが提示され、数値ベクトルあるいは分布として表される割り当て決定に取り組んでいる。
i)本論文で提案された最初のSBFケーススタディ,および(ii)実生活アプリケーション(すなわちマルチチャネルマーケティングの最適化)の結果は,BORAがSBFよりも効率的で効果的な学習・最適化フレームワークであることを実証的に証明している。
論文 参考訳(メタデータ) (2022-10-12T07:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。