論文の概要: The Art of Scaling Test-Time Compute for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.02008v1
- Date: Mon, 01 Dec 2025 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.037266
- Title: The Art of Scaling Test-Time Compute for Large Language Models
- Title(参考訳): 大規模言語モデルのためのテスト時間計算のスケーリング技術
- Authors: Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty,
- Abstract要約: テスト時のスケーリングは、大規模言語モデルの推論を改善する上で有望な方向である。
8つのオープンソース LLM を用いて生成した300億以上のトークンにまたがる TTS に関する最初の大規模研究を行う。
1)1つのTS戦略が普遍的に支配しない,(2)問題難易度とトレース長の異なるトレース品質パターンを示す推論モデル,(3)与えられたモデルタイプに対して,最適なTS性能は計算予算と単調にスケールする,という3つの一貫した傾向を観察する。
- 参考スコア(独自算出の注目度): 24.371527828116445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.
- Abstract(参考訳): テスト時間スケーリング(TTS) — 推論中の計算の動的割り当て — は、大規模言語モデル(LLM)の推論を改善する上で有望な方向である。
しかし、同じ条件下でのよく知られたTS戦略の体系的比較は欠落しており、モデルタイプと問題難度が性能に与える影響はいまだ不明である。
これらのギャップに対処するため、我々は4つの推論データセットにまたがる8つのオープンソースのLCM(7Bから235Bパラメータ)を用いて、300億以上のトークンを生成するTSの大規模な研究を行った。
1つのTS戦略が普遍的に支配されることはない; 2) 推論モデルは問題難易度とトレース長の異なるトレース品質パターンを示し、短軸と長軸のカテゴリを形成している; (3) 与えられたモデルタイプに対して、最適なTS性能は計算予算と単調にスケールする。
これらの知見に基づいて、問題難易度、モデルタイプ、計算予算を考慮して、最高のTS戦略を選択するための実践的なレシピを提供し、効果的な推論時間スケーリングの実践的なガイドを提供する。
関連論文リスト
- Investigating Test-Time Scaling with Reranking for Machine Translation [3.938945042802514]
モデルパラメータのスケーリングは、NLPシステムを改善するための事実上の戦略となっているが、かなりの計算コストが伴う。
テスト時間スケーリング(TTS)は、複数の候補を生成し、ベストを選択するという、推論時により多くの計算を割り当てることによる代替手段を提供する。
WMT24ベンチマークにおいて,機械翻訳のためのTTSに関する最初の体系的な研究を行い,単純だが実用的なNフレームワークについて検討する。
論文 参考訳(メタデータ) (2025-09-23T13:58:16Z) - Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling [27.616118519120366]
テストタイムスケーリング(TTS)は,多種多様な推論経路をサンプリング・集約することにより,大規模言語モデル(LLM)の性能を向上させることが示されている。
本稿では,テスト時間スケーリングの有効性を損なう場合の理論的解析について述べる。
この理論的な洞察に触発され、推論戦略の選択バイアスを軽減するために設計されたフレームワークであるTS-Uniformを導入する。
論文 参考訳(メタデータ) (2025-09-22T15:30:56Z) - Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models [58.36334504216682]
テスト時間スケーリングは、推論中にモデルのインテリジェンスを段階的に引き出す、有望なアプローチである。
本稿では,推論のためのトレーニング不要なTTS手法に焦点をあてる。
ハイブリッドテスト時間スケーリングと呼ばれる新しい推論パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-21T11:28:09Z) - Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning [19.426979775180797]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、Large Language Models(LLM)の推論性能を改善する。
我々は、推論最適化モデルが、TSの有効性を制限するような、より多様な出力を生成することが多いことを観察する。
多様性を重視したデータストラテジーにプレフィックスチューニングを適用する軽量な手法であるADAPTを提案する。
論文 参考訳(メタデータ) (2025-06-05T04:02:17Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling [69.57918638435491]
テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。
異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か?
計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T17:30:23Z) - DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising
Diffusion Models [53.67562579184457]
本稿では,不確実性や複雑な依存関係のモデル化が困難であることから,確率的STG予測に焦点をあてる。
本稿では,一般的な拡散モデルをSTGに一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰フレームワークを提案する。
提案手法は,本質的時間学習能力STNNと拡散モデルの不確実性測定を組み合わせたものである。
論文 参考訳(メタデータ) (2023-01-31T13:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。