論文の概要: Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.20522v1
- Date: Mon, 26 May 2025 20:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.294223
- Title: Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models
- Title(参考訳): スケーリングによるスケーリング - 大規模な推論モデルにおけるテスト時間スケーリングパレットの探索
- Authors: Jian Wang, Boyan Zhu, Chak Tou Leong, Yongqi Li, Wenjie Li,
- Abstract要約: テスト時間スケーリング性能モデル(TTSPM)について紹介する。
このような拡張スケーリング、並列スケーリング、シーケンシャルスケーリングの2つの基本パラダイムを理論的に分析する。
我々は, AIME, MATH-500, GPQAなど, 挑戦的推論ベンチマークに関する理論的知見を検証した。
- 参考スコア(独自算出の注目度): 7.2703757624760526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have exhibited the capacity of enhancing reasoning performance via internal test-time scaling. Building upon this, a promising direction is to further scale test-time compute to unlock even greater reasoning capabilities. However, as we push these scaling boundaries, systematically understanding the practical limits and achieving optimal resource allocation becomes a critical challenge. In this paper, we investigate the scaling Pareto of test-time scaling and introduce the Test-Time Scaling Performance Model (TTSPM). We theoretically analyze two fundamental paradigms for such extended scaling, parallel scaling and sequential scaling, from a probabilistic modeling perspective. Our primary contribution is the derivation of the saturation point on the scaling budget for both strategies, identifying thresholds beyond which additional computation yields diminishing returns. Remarkably, despite their distinct mechanisms, both paradigms converge to a unified mathematical structure in their upper bounds. We empirically validate our theoretical findings on challenging reasoning benchmarks, including AIME, MATH-500, and GPQA, demonstrating the practical utility of these bounds for test-time resource allocation. We hope that this work provides insights into the cost-benefit trade-offs of test-time scaling, guiding the development of more resource-efficient inference strategies for large reasoning models.
- Abstract(参考訳): 大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これに基づいて、有望な方向性は、テスト時間計算をさらにスケールして、さらに大きな推論機能をアンロックすることだ。
しかし、これらのスケーリング境界を推し進めるにつれて、実践的な限界を体系的に理解し、最適なリソース割り当てを達成することが重要な課題となる。
本稿では,テストタイムスケーリングのスケーリングパレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
このような拡張スケーリング、並列スケーリング、シーケンシャルスケーリングの2つの基本パラダイムを確率論的モデリングの観点から理論的に解析する。
我々の主な貢献は、両方の戦略のスケーリング予算における飽和点の導出であり、余剰計算が利益を減少させるしきい値の特定である。
顕著なことに、それぞれのメカニズムにもかかわらず、両方のパラダイムは上界の統一された数学的構造に収束する。
我々は, AIME, MATH-500, GPQAなど, 挑戦的推論ベンチマークに関する理論的知見を実証的に検証し, テスト時間資源割り当てにおけるこれらの限界の実用性を実証した。
この研究は、テスト時間スケーリングのコスト対効果のトレードオフに関する洞察を提供し、大きな推論モデルのためのよりリソース効率の良い推論戦略の開発を導くことを願っています。
関連論文リスト
- Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を迅速かつ正確に予測し,大規模なサンプリング時間で最良の戦略を選択するための確率理論に基づく手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。
我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。
我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文 参考訳(メタデータ) (2025-04-02T23:51:27Z) - Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。