Fugu-MT 論文翻訳(概要): Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models

論文の概要: Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models

arxiv url: http://arxiv.org/abs/2505.20522v1
Date: Mon, 26 May 2025 20:58:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.294223
Title: Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models
Title（参考訳）: スケーリングによるスケーリング - 大規模な推論モデルにおけるテスト時間スケーリングパレットの探索
Authors: Jian Wang, Boyan Zhu, Chak Tou Leong, Yongqi Li, Wenjie Li,
Abstract要約: テスト時間スケーリング性能モデル(TTSPM)について紹介する。このような拡張スケーリング、並列スケーリング、シーケンシャルスケーリングの2つの基本パラダイムを理論的に分析する。我々は, AIME, MATH-500, GPQAなど, 挑戦的推論ベンチマークに関する理論的知見を検証した。
参考スコア（独自算出の注目度）: 7.2703757624760526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large reasoning models (LRMs) have exhibited the capacity of enhancing reasoning performance via internal test-time scaling. Building upon this, a promising direction is to further scale test-time compute to unlock even greater reasoning capabilities. However, as we push these scaling boundaries, systematically understanding the practical limits and achieving optimal resource allocation becomes a critical challenge. In this paper, we investigate the scaling Pareto of test-time scaling and introduce the Test-Time Scaling Performance Model (TTSPM). We theoretically analyze two fundamental paradigms for such extended scaling, parallel scaling and sequential scaling, from a probabilistic modeling perspective. Our primary contribution is the derivation of the saturation point on the scaling budget for both strategies, identifying thresholds beyond which additional computation yields diminishing returns. Remarkably, despite their distinct mechanisms, both paradigms converge to a unified mathematical structure in their upper bounds. We empirically validate our theoretical findings on challenging reasoning benchmarks, including AIME, MATH-500, and GPQA, demonstrating the practical utility of these bounds for test-time resource allocation. We hope that this work provides insights into the cost-benefit trade-offs of test-time scaling, guiding the development of more resource-efficient inference strategies for large reasoning models.
Abstract（参考訳）: 大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。これに基づいて、有望な方向性は、テスト時間計算をさらにスケールして、さらに大きな推論機能をアンロックすることだ。しかし、これらのスケーリング境界を推し進めるにつれて、実践的な限界を体系的に理解し、最適なリソース割り当てを達成することが重要な課題となる。本稿では,テストタイムスケーリングのスケーリングパレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。このような拡張スケーリング、並列スケーリング、シーケンシャルスケーリングの2つの基本パラダイムを確率論的モデリングの観点から理論的に解析する。我々の主な貢献は、両方の戦略のスケーリング予算における飽和点の導出であり、余剰計算が利益を減少させるしきい値の特定である。顕著なことに、それぞれのメカニズムにもかかわらず、両方のパラダイムは上界の統一された数学的構造に収束する。我々は, AIME, MATH-500, GPQAなど, 挑戦的推論ベンチマークに関する理論的知見を実証的に検証し, テスト時間資源割り当てにおけるこれらの限界の実用性を実証した。この研究は、テスト時間スケーリングのコスト対効果のトレードオフに関する洞察を提供し、大きな推論モデルのためのよりリソース効率の良い推論戦略の開発を導くことを願っています。

関連論文リスト

Probabilistic Optimality for Inference-time Scaling [11.92228840747636]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。本稿では,並列サンプルが独立して同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。このフレームワーク内では,対象性能レベルを達成するために,必要なサンプル数に基づいて理論的な下限を導出し,計算効率のスケーリングに関する第一原理的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-06-27T16:44:11Z)
A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。推論コストは、今やリソース全体の負担の重要かつ増大する要素である。本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文参考訳（メタデータ） (2025-06-10T14:47:48Z)
Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文参考訳（メタデータ） (2025-06-05T17:59:24Z)
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。 LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-05-19T16:26:02Z)
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。本稿では,スケーリング性能を迅速かつ正確に予測し,大規模なサンプリング時間で最良の戦略を選択するための確率理論に基づく手法を提案する。
論文参考訳（メタデータ） (2025-05-16T08:28:57Z)
A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文参考訳（メタデータ） (2025-04-02T23:51:27Z)
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文参考訳（メタデータ） (2025-03-31T23:40:28Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳（メタデータ） (2025-02-17T07:21:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。