論文の概要: What If We Allocate Test-Time Compute Adaptively?
- arxiv url: http://arxiv.org/abs/2602.01070v1
- Date: Sun, 01 Feb 2026 07:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.577666
- Title: What If We Allocate Test-Time Compute Adaptively?
- Title(参考訳): テスト時間計算を適応的にアロケートしたら?
- Authors: Ahsan Bilal, Ahmed Mohsin, Muhammad Umer, Ali Subhan, Hassan Rizwan, Ayesha Mohsin, Dean Hougen,
- Abstract要約: テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 2.1713977971908944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time compute scaling allocates inference computation uniformly, uses fixed sampling strategies, and applies verification only for reranking. In contrast, we propose a verifier-guided adaptive framework treating reasoning as iterative trajectory generation and selection. For each problem, the agent runs multiple inference iterations. In each iteration, it optionally produces a high-level plan, selects a set of reasoning tools and a compute strategy together with an exploration parameter, and then generates a candidate reasoning trajectory. A process reward model (PRM) serves as a unified control signal: within each iteration, step-level PRM scores are aggregated to guide pruning and expansion during generation, and across iterations, aggregated trajectory rewards are used to select the final response. Across datasets, our dynamic, PRM-guided approach consistently outperforms direct test-time scaling, yielding large gains on MATH-500 and several-fold improvements on harder benchmarks such as AIME24 and AMO-Bench. We characterize efficiency using theoretical FLOPs and a compute intensity metric penalizing wasted generation and tool overhead, demonstrating that verification-guided allocation concentrates computation on high-utility reasoning paths.
- Abstract(参考訳): テストタイムの計算スケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
これとは対照的に、推論を反復的な軌道生成と選択として扱う検証器誘導適応フレームワークを提案する。
各問題に対して、エージェントは複数の推論イテレーションを実行する。
各イテレーションでは、高レベルプランを任意に生成し、探索パラメータとともに推論ツールと計算戦略のセットを選択し、候補推論軌道を生成する。
プロセス報酬モデル(PRM)は統一制御信号として機能し、各イテレーションにおいて、生成中のプルーニングと拡張を誘導するためにステップレベルのPRMスコアを集約し、イテレーションを通して、最終的な応答を選択するために集約された軌道報酬を使用する。
データセット全体にわたって、当社の動的PRM誘導型アプローチは、直接テストタイムスケーリングよりも一貫して優れており、MATH-500で大きく向上し、AIME24やAMO-Benchといったより厳しいベンチマークで数倍の改善をもたらしています。
我々は,理論的FLOPと計算強度計量による無駄発生とツールオーバーヘッドを用いて効率を特徴付け,検証誘導アロケーションが高ユーティリティな推論経路上での計算に集中することを実証した。
関連論文リスト
- Test-time Diverse Reasoning by Riemannian Activation Steering [16.26456436031057]
Best-of-N$推論は、複数の候補解をサンプリングし、いくつかの基準に基づいて最適なものを選択することで、複雑なタスクを解く際の言語モデルの精度を向上させる。
この戦略の重要なボトルネックは出力限界の多様性であり、これはモデルがサンプリングにもかかわらず同様の出力を生成した時に発生し、したがって同じエラーを引用する。
本稿では,複数の推論軌道に対して同時にステアリングベクトルを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-11T14:35:41Z) - EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling [17.020890684331203]
本稿では,トークンワイドエントロピー分布を用いたモデル不確実性を利用した学習自由生成手法であるEAGerを提案する。
AIME 2025のような複雑な推論ベンチマーク上の複数のオープンソースモデルにおいて、EAGerはターゲットラベルにアクセスせずに予算を再配置できる。
ターゲットラベルがアクセス可能になった場合、EAGerは最大65%のトークンを生成し、Full Parallel Samplingと比較して、Pass@kを最大37%改善する。
論文 参考訳(メタデータ) (2025-10-13T09:04:28Z) - LATTS: Locally Adaptive Test-Time Scaling [45.37857725357838]
生成ステップ間で変数計算を割り当てるために,emphLocally Adaptive Test-Time Scaling (LATTS)を提案する。
LATTSは検証者ベースの受け入れ基準を用いて、生成プロセスを再サンプリング、バックトラック、再起動、または停止するかを決定する。
実験結果から, LATTS は標準検証手法と比較して, 高い精度で計算トレードオフを達成できることがわかった。
論文 参考訳(メタデータ) (2025-09-16T17:51:33Z) - Reward Model Generalization for Compute-Aware Test-Time Reasoning [21.05692631562457]
外部テスト時推論は、生成と選択を分離することで、大きな言語モデル(LLM)を強化する。
この設定における中心的な課題は、テスト時間計算の最適性(TCO)、すなわち、固定された推論予算の下で答えの正確さを最大化する方法である。
PRMの一般化誤差が計算効率と推論性能に与える影響を解析する。
そこで本研究では,探索動作を動的に制御するアクター・クリティカルなフレームワークであるCompute-Aware Tree Search (CATS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:12:12Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。