論文の概要: Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
- arxiv url: http://arxiv.org/abs/2510.13161v1
- Date: Wed, 15 Oct 2025 05:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.508373
- Title: Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
- Title(参考訳): ミラー投機復号 - LLM推論におけるシリアルバリアの破壊
- Authors: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova,
- Abstract要約: 投機的復号化は、ドラフトモデルを使用して推測を加速する。
事前の方法は、ドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
- 参考スコア(独自算出の注目度): 11.957170239588535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates LLM inference by using a draft model to look ahead, but gains are capped by the cost of autoregressive draft generation: increasing draft size elevates acceptance rates but introduces additional latency overhead exacerbating the speed-accuracy tradeoff. Prior methods (Medusa, Hydra, EAGLE) partially reduce draft cost but either degrade acceptance or introduce overheads that limit scaling. We present Mirror Speculative Decoding (Mirror-SD), an inference algorithm that breaks the latency-acceptance tradeoff. Mirror-SD launches branch-complete rollouts from early-exit signals in parallel with the target model's suffix and explicitly maps computation across heterogeneous accelerators (GPU and NPU) to exploit cross-device parallelism. The draft speculates forward continuations for the target to verify, while the target simultaneously speculates correction paths for the draft, converting speculation into two complementary execution pipelines. To further cut draft latency without weakening acceptance semantics, we add speculative streaming so the draft emits multiple tokens per step. This dual strategy of parallel heterogeneous execution plus multi-token speculative streaming pushes speculative decoding toward its ideal regime of high acceptance with low overhead. On SpecBench with server-scale models from 14B to 66B parameters, Mirror-SD delivers consistent end-to-end gains, achieving 2.8x-5.8x wall-time speedups across diverse tasks and a 30% average relative improvement over the strongest baseline, EAGLE3.
- Abstract(参考訳): 投機的復号化は、先を見据えるためにドラフトモデルを使用することでLCM推論を加速させるが、利得は自己回帰的なドラフト生成のコストによって抑制される。
以前の方法(Medusa、Hydra、EAGLE)はドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
Mirror-SDは、ターゲットモデルのサフィックスと並行して、早期出力信号からのブランチ完全ロールアウトをローンチし、異種アクセラレータ(GPUとNPU)間で計算を明示的にマッピングして、クロスデバイス並列性を活用する。
ドラフトは、ターゲットが検証する前方の継続を推測する一方で、ターゲットはドラフトの修正パスを同時に推測し、投機を2つの補完的な実行パイプラインに変換する。
受け入れセマンティクスを弱めることなく、ドラフトの遅延をさらに削減するために、投機的ストリーミングを追加し、ドラフトはステップ毎に複数のトークンを出力する。
この並列ヘテロジニアス実行とマルチトークンの投機的ストリーミングという2つの戦略は、投機的復号化を、低オーバーヘッドで高い受け入れの理想的な状態へと押し上げる。
SpecBenchの14Bから66Bパラメータのサーバスケールモデルでは、Mirror-SDが一貫したエンドツーエンドのゲインを提供し、様々なタスクで2.8x-5.8倍のウォールタイムスピードアップを実現し、最強のベースラインであるEAGLE3よりも30%平均的な相対的改善を実現している。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - FastEagle: Cascaded Drafting for Accelerating Speculative Decoding [6.482154864678126]
我々はFastEagleを紹介します。FastEagleは非自己回帰的なカスケードのドラフトで、ドラフト全体を1つのフォワードパスで出力します。
FastEagleは、競争力のある受け入れ動作を維持しながら、強力な自己回帰型ドラフトラに対して、ウォールタイムの大幅なスピードアップを提供する。
論文 参考訳(メタデータ) (2025-09-24T09:38:32Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism [20.3565068078231]
仮説復号における分岐並列性を解き放つための新しいフレームワーク textbfSpecBranch を提案する。
SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
論文 参考訳(メタデータ) (2025-05-16T07:45:05Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。