Fugu-MT 論文翻訳(概要): Scaling Speculative Decoding with Lookahead Reasoning

論文の概要: Scaling Speculative Decoding with Lookahead Reasoning

arxiv url: http://arxiv.org/abs/2506.19830v1
Date: Tue, 24 Jun 2025 17:48:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.756551
Title: Scaling Speculative Decoding with Lookahead Reasoning
Title（参考訳）: Lookahead Reasoningによる投機的デコーディングのスケールアップ
Authors: Yichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang,
Abstract要約: トークンレベルの投機的復号法(SD)は有効だが、その利点は秘められている。並列性の第2段層を利用したLookahead Reasoningを開発した。 Lookahead Reasoningは、回答の品質を維持しながら、SDの1.4倍から2.1倍のスピードアップを改善する。
参考スコア（独自算出の注目度）: 11.349400331288257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reasoning models excel by generating long chain-of-thoughts, but decoding the resulting thousands of tokens is slow. Token-level speculative decoding (SD) helps, but its benefit is capped, because the chance that an entire $\gamma$-token guess is correct falls exponentially as $\gamma$ grows. This means allocating more compute for longer token drafts faces an algorithmic ceiling -- making the speedup modest and hardware-agnostic. We raise this ceiling with Lookahead Reasoning, which exploits a second, step-level layer of parallelism. Our key insight is that reasoning models generate step-by-step, and each step needs only to be semantically correct, not exact token matching. In Lookahead Reasoning, a lightweight draft model proposes several future steps; the target model expands each proposal in one batched pass, and a verifier keeps semantically correct steps while letting the target regenerate any that fail. Token-level SD still operates within each reasoning step, so the two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x while preserving answer quality, and its speedup scales better with additional GPU throughput. Our code is available at https://github.com/hao-ai-lab/LookaheadReasoning
Abstract（参考訳）: 推論モデルは長いチェーン・オブ・シークレットを生成することで優れているが、結果として数千のトークンをデコードするのは遅い。トークンレベルの投機的復号法(SD)は有効であるが、$\gamma$-tokenの推測全体が正しい確率は、$\gamma$が成長するにつれて指数関数的に低下するので、その利点は制限される。つまり、より長いトークンドラフトのためにより多くの計算を割り当てることは、アルゴリズム的な天井に直面します。この天井をLookahead Reasoning(Lookahead Reasoning)で上げます。私たちのキーとなる洞察は、推論モデルがステップバイステップを生成することです。 Lookahead Reasoningでは、軽量なドラフトモデルがいくつかの将来のステップを提案している。トークンレベルのSDは依然として各推論ステップ内で動作しているため、並列性の2つの層は乗算可能である。 Lookahead Reasoningは理論上も経験上もSDのピーク速度を上げる。 GSM8K、AIME、その他のベンチマークで、Lookahead Reasoningは、解答の品質を維持しながらSDの1.4倍から2.1倍に高速化し、GPUスループットを向上する。私たちのコードはhttps://github.com/hao-ai-lab/LookaheadReasoningで利用可能です。

関連論文リスト

PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文参考訳（メタデータ） (2026-02-01T15:12:38Z)
Speculative Decoding Speed-of-Light: Optimal Lower Bounds via Branching Random Walks [39.54576236079211]
投機生成は、大規模言語モデルにおける推論を加速する有望な手法として登場した。本研究では,任意の決定論的投機生成アルゴリズムのランタイム上での最初のタイトな下限を確立する。
論文参考訳（メタデータ） (2025-12-12T16:54:33Z)
dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文参考訳（メタデータ） (2025-09-19T04:51:41Z)
Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。 Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文参考訳（メタデータ） (2025-08-27T15:40:25Z)
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time [52.56648646336559]
最初、$alpha$1が$alpha$ momentを導入し、これは、ユニバーサルパラメータ$alpha$でスケールされた思考フェーズを表す。 alpha$1のモーメントの後、$alpha$1は決定論的に、終端トークンによるゆっくりとした思考を終了させる。このアプローチは、フレキシブルで高密度なスロー・トゥ・ファスト推論変調を可能にすることによって、既存のモノトニックスケーリング手法を統一し、一般化する。
論文参考訳（メタデータ） (2025-05-30T17:58:36Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:02Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)
Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう? 私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文参考訳（メタデータ） (2023-10-03T17:32:41Z)
SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文参考訳（メタデータ） (2023-07-05T19:59:09Z)
Improving Dual-Encoder Training through Dynamic Indexes for Negative Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文参考訳（メタデータ） (2023-03-27T15:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。