論文の概要: Speculative Speculative Decoding
- arxiv url: http://arxiv.org/abs/2603.03251v1
- Date: Tue, 03 Mar 2026 18:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.933948
- Title: Speculative Speculative Decoding
- Title(参考訳): 投機的投機的復号法
- Authors: Tanishq Kumar, Tri Dao, Avner May,
- Abstract要約: これらの操作を並列化するために、投機的投機的復号法(SSD)を導入する。
投機的投機的復号法によって提示される3つの重要な課題を特定し,各解法について提案する。
我々の実装は最適化された投機的復号化ベースラインよりも最大2倍高速で、オープンソース推論エンジンによる自己回帰復号化よりも最大5倍高速です。
- 参考スコア(独自算出の注目度): 30.440531978808295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive decoding is bottlenecked by its sequential nature. Speculative decoding has become a standard way to accelerate inference by using a fast draft model to predict upcoming tokens from a slower target model, and then verifying them in parallel with a single target model forward pass. However, speculative decoding itself relies on a sequential dependence between speculation and verification. We introduce speculative speculative decoding (SSD) to parallelize these operations. While a verification is ongoing, the draft model predicts likely verification outcomes and prepares speculations pre-emptively for them. If the actual verification outcome is then in the predicted set, a speculation can be returned immediately, eliminating drafting overhead entirely. We identify three key challenges presented by speculative speculative decoding, and suggest principled methods to solve each. The result is Saguaro, an optimized SSD algorithm. Our implementation is up to 2x faster than optimized speculative decoding baselines and up to 5x faster than autoregressive decoding with open source inference engines.
- Abstract(参考訳): 自己回帰デコーディングは、そのシーケンシャルな性質によってボトルネックとなる。
投機的復号化は、高速なドラフトモデルを使用して、遅いターゲットモデルから来るべきトークンを予測し、単一のターゲットモデルフォワードパスと並行して検証することで、推論を加速する標準的な方法となっている。
しかし、投機的復号法自体は投機と検証の間の逐次的依存に依存している。
これらの操作を並列化するために、投機的投機的復号法(SSD)を導入する。
検証が進行中である間、ドラフトモデルは、潜在的に検証結果を予測するとともに、事前に推測を準備する。
実際の検証結果が予測されたセットにある場合、投機は直ちに返され、ドラフトのオーバーヘッドを完全に排除できる。
投機的投機的復号法によって提示される3つの重要な課題を特定し,各解法について提案する。
その結果、最適化されたSSDアルゴリズムであるSaguaroが実現した。
我々の実装は最適化された投機的復号化ベースラインよりも最大2倍高速で、オープンソース推論エンジンによる自己回帰復号化よりも最大5倍高速です。
関連論文リスト
- PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference [11.957170239588535]
投機的復号化は、ドラフトモデルを使用して推測を加速する。
事前の方法は、ドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
論文 参考訳(メタデータ) (2025-10-15T05:22:57Z) - Self Speculative Decoding for Diffusion Large Language Models [21.955478721386953]
拡散に基づく大規模言語モデル (dLLMs) は自己回帰モデルに代わる競合モデルとして登場した。
textbfSelf textbfSpeculative textbfDecoding (SSD) を提案する。
SSDは最大3.46$times$ Speedupを実現し、出力はLLaDAやDreamのようなオープンソースのモデルで段階的に復号化される。
論文 参考訳(メタデータ) (2025-10-05T10:52:28Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。