論文の概要: Are We Scaling the Right Thing? A System Perspective on Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2509.19645v1
- Date: Tue, 23 Sep 2025 23:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.636751
- Title: Are We Scaling the Right Thing? A System Perspective on Test-Time Scaling
- Title(参考訳): 正しい部分のスケーリングは可能か? テスト時間スケーリングのシステム展望
- Authors: Youpeng Zhao, Jinpeng LV, Di Wu, Jun Wang, Christopher Gooley,
- Abstract要約: テストタイムスケーリング(TTS)は、大規模言語モデル(LLM)の隠れた推論能力を活用するための有望な方向として登場した。
本稿では,TTSにおけるシステム駆動の視点として,遅延やコスト・パー・トークンといった実測値に対して,推論モデルがどのようにスケールするかを解析する。
- 参考スコア(独自算出の注目度): 8.855653249643089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has recently emerged as a promising direction to exploit the hidden reasoning capabilities of pre-trained large language models (LLMs). However, existing scaling methods narrowly focus on the compute-optimal Pareto-frontier, ignoring the simple fact that compute-optimal is not always system-optimal. In this work, we propose a system-driven perspective on TTS, analyzing how reasoning models scale against practical metrics, such as latency and cost-per-token. By evaluating the impact of popular optimizations such as tensor parallelism and speculative decoding, our preliminary analysis reveals the limitations of current methods and calls for a paradigm shift toward holistic, system-aware evaluations that capture the true essence of scaling laws at inference time.
- Abstract(参考訳): テスト時スケーリング(TTS)は、最近、事前訓練された大規模言語モデル(LLM)の隠れた推論能力を活用するための有望な方向として登場した。
しかし、既存のスケーリング手法では、計算最適化が必ずしもシステム最適化であるとは限らないという単純な事実を無視して、計算最適化のパレートフロンティアに焦点を絞っている。
本研究では,TSにおけるシステム駆動の視点を提案し,推論モデルが遅延やコスト・パー・トークンといった実用的なメトリクスに対してどのようにスケールするかを分析する。
テンソル並列性や投機的復号化といった一般的な最適化の影響を評価することで,既存の手法の限界を明らかにし,推論時におけるスケーリング法則の真の本質を捉えた全体的システム認識評価へのパラダイムシフトを求める。
関連論文リスト
- Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。
テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。
テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-08-30T01:54:55Z) - SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression [15.87106741558898]
後学習法は補助的なモデルや過度な考えのためにかなりの計算オーバーヘッドを発生させる。
本稿では,プラグインRLgableプロセス監視フレームワークであるSSPO(Self-traced Step-wise Preference Optimization)を提案する。
SSPOは、モデル自身が生成したステップワイズ優先信号を使用して、圧縮を推論するための最適化プロセスを導出する。
論文 参考訳(メタデータ) (2025-08-18T04:02:15Z) - Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models [58.36334504216682]
テスト時間スケーリングは、推論中にモデルのインテリジェンスを段階的に引き出す、有望なアプローチである。
本稿では,推論のためのトレーニング不要なTTS手法に焦点をあてる。
ハイブリッドテスト時間スケーリングと呼ばれる新しい推論パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-21T11:28:09Z) - Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文 参考訳(メタデータ) (2025-06-05T17:59:24Z) - Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。
既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。
本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文 参考訳(メタデータ) (2025-05-29T03:19:17Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。