Fugu-MT 論文翻訳(概要): $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts

論文の概要: $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts

arxiv url: http://arxiv.org/abs/2506.15733v1
Date: Sun, 15 Jun 2025 05:50:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.742749
Title: $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts
Title（参考訳）: $\texttt{SPECS}$: 投機的ドラフトによるテスト時間スケーリングの高速化
Authors: Mert Cemri, Nived Rajaraman, Rishabh Tiwari, Xiaoxuan Liu, Kurt Keutzer, Ion Stoica, Kannan Ramchandran, Ahmad Beirami, Ziteng Sun,
Abstract要約: $textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
参考スコア（独自算出の注目度）: 55.231201692232894
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling test-time compute has driven the recent advances in the reasoning capabilities of large language models (LLMs), typically by allocating additional computation for more thorough exploration. However, increased compute often comes at the expense of higher user-facing latency, directly impacting user experience. Current test-time scaling methods primarily optimize for accuracy based on total compute resources (FLOPS), often overlooking latency constraints. To address this gap, we propose $\texttt{SPECS}$, a latency-aware test-time scaling method inspired by speculative decoding. $\texttt{SPECS}$~uses a smaller, faster model to generate candidate sequences efficiently, and evaluates these candidates using signals from both a larger target model and a dedicated reward model. We introduce new integration strategies, including reward-guided soft verification and a reward-based deferral mechanism. Empirical results on MATH500, AMC23 and OlympiadBench datasets show that $\texttt{SPECS}$~matches or surpasses beam search accuracy while reducing latency by up to $\sim$19.1\%. Our theoretical analysis shows that our algorithm converges to the solution of a KL-regularized reinforcement learning objective with increasing beam width.
Abstract（参考訳）: テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の最近の進歩を駆動している。しかしながら、計算量の増加は、しばしば、ユーザ側のレイテンシの増大を犠牲にし、ユーザエクスペリエンスに直接影響を与えます。現在のテスト時間スケーリング手法は主に全計算リソース(FLOPS)に基づいて精度を最適化する。このギャップに対処するために、投機的デコーディングにインスパイアされた遅延対応のテスト時間スケーリング手法である$\texttt{SPECS}$を提案する。 $\texttt{SPECS}$~は、より小さくより高速なモデルを使用して、候補シーケンスを効率的に生成し、より大きなターゲットモデルと専用の報酬モデルの両方からの信号を使用してこれらの候補を評価する。報酬誘導型ソフト検証や報酬に基づく遅延機構など,新たな統合戦略を導入する。 MATH500、AMC23、OlympiadBenchのデータセットの実証結果によると、$\texttt{SPECS}$~matchesはビームサーチ精度を上回り、最大$\sim$19.1\%の遅延を減少させる。理論解析により,我々のアルゴリズムはビーム幅を増大させるKL正規化強化学習目標の解に収束することを示した。

関連論文リスト

Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文参考訳（メタデータ） (2025-06-05T17:59:24Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Every Rollout Counts: Optimal Resource Allocation for Efficient Test-Time Scaling [19.673388630963807]
テスト時間スケーリング(TTS)による大規模言語モデル(LLM)の性能向上探索中に最も効果的にロールアウト予算を割り当てる方法はまだ探索されていないが、多くの場合、テスト時に計算の効率が悪くなる。本稿では,このバイアスを緩和する最適手法として,指向性資源割当(DORA)を提案する。
論文参考訳（メタデータ） (2025-05-30T09:05:25Z)
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文参考訳（メタデータ） (2025-05-16T08:28:57Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning [90.5036809670993]
大規模な言語モデルの推論能力を向上するための重要な戦略として、テスト時間計算のスケーリングが登場した。次世代予測課題としてのジェネレーティブ・リワード・モデル(GenRM)再フレーム検証の最近の進歩我々は、さまざまなモデルやデータセットにまたがる最も実用的な推論予算について、GenRMと自己整合性(SC)を評価した。
論文参考訳（メタデータ） (2025-04-01T17:41:57Z)
Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文参考訳（メタデータ） (2025-03-27T18:00:08Z)
$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-17T15:38:33Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。