Fugu-MT 論文翻訳(概要): Speculative Decoding Speed-of-Light: Optimal Lower Bounds via Branching Random Walks

論文の概要: Speculative Decoding Speed-of-Light: Optimal Lower Bounds via Branching Random Walks

arxiv url: http://arxiv.org/abs/2512.11718v1
Date: Fri, 12 Dec 2025 16:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-15 15:48:11.84675
Title: Speculative Decoding Speed-of-Light: Optimal Lower Bounds via Branching Random Walks
Title（参考訳）: 光の投機的復号:分岐ランダムウォークによる最適下界
Authors: Sergey Pankratov, Dan Alistarh,
Abstract要約: 投機生成は、大規模言語モデルにおける推論を加速する有望な手法として登場した。本研究では,任意の決定論的投機生成アルゴリズムのランタイム上での最初のタイトな下限を確立する。
参考スコア（独自算出の注目度）: 39.54576236079211
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative generation has emerged as a promising technique to accelerate inference in large language models (LLMs) by leveraging parallelism to verify multiple draft tokens simultaneously. However, the fundamental limits on the achievable speedup remain poorly understood. In this work, we establish the first ``tight'' lower bounds on the runtime of any deterministic speculative generation algorithm. This is achieved by drawing a parallel between the token generation process and branching random walks, which allows us to analyze the optimal draft tree selection problem. We prove, under basic assumptions, that the expected number of tokens successfully predicted per speculative iteration is bounded as $\mathbb{E}[X] \leq (μ+ μ_{(2)})\log(P )/μ^2 + O(1)$, where $P$ is the verifier's capacity, $μ$ is the expected entropy of the verifier's output distribution, and $μ_{(2)}$ is the expected second log-moment. This result provides new insights into the limits of parallel token generation, and could guide the design of future speculative decoding systems. Empirical evaluations on Llama models validate our theoretical predictions, confirming the tightness of our bounds in practical settings.
Abstract（参考訳）: 投機生成は、並列性を利用して複数のドラフトトークンを同時に検証することにより、大規模言語モデル(LLM)における推論を加速する有望な手法として登場した。しかし、達成可能なスピードアップの基本的な制限は理解されていない。本研究では,任意の決定論的投機生成アルゴリズムのランタイム上で,最初の‘tight'の下位境界を確立する。これはトークン生成プロセスと分岐ランダムウォークの並列化によって実現され、最適なドラフトツリー選択問題を解析することができる。基本的な仮定では、投機反復毎に予測されたトークンの期待数は、$\mathbb{E}[X] \leq (μ+μ_{(2)})\log(P)/μ^2 + O(1)$, ここで、$P$は検証者のキャパシティ、$μ$は検証者の出力分布の期待エントロピー、$μ_{(2)}$は予測される第2のログモーメントである。この結果は、並列トークン生成の限界に対する新たな洞察を与え、将来の投機的復号システムの設計を導くことができる。 Llamaモデルに関する実証的な評価は、我々の理論的予測を検証し、実践的な設定における境界の厳密さを確認する。

関連論文リスト

Provable Long-Range Benefits of Next-Token Prediction [11.043470114967775]
より長い範囲構造を学習する上で,次世代の予測は間違いなく強力であることを示す。本稿では,実際に観察された長距離コヒーレンスについて解説する。
論文参考訳（メタデータ） (2025-12-08T18:51:54Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか? i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文参考訳（メタデータ） (2025-10-01T17:08:59Z)
Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文参考訳（メタデータ） (2025-09-19T04:51:41Z)
Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文参考訳（メタデータ） (2025-05-18T12:51:55Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。