論文の概要: Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism
- arxiv url: http://arxiv.org/abs/2601.05524v1
- Date: Fri, 09 Jan 2026 04:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.836935
- Title: Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism
- Title(参考訳): Double:Double Retrieval Speculative Parallelismによるアクセラレーション限界を破る
- Authors: Yuhao Shen, Tianyu Liu, Junyi Shen, Jinyang Wu, Quan Kong, Li Huan, Cong Wang,
- Abstract要約: textscDouble (Double Retrieval Speculative Parallelism)を紹介する。
提案手法は,理論的な高速化限界を断ち切るために反復的検索投機を実行する。
実験では、LLaMA3.3-70Bで$textbf5.3times$、Qwen3-32Bで$textbf2.8times$の最先端のスピードアップが示されている。
- 参考スコア(独自算出の注目度): 19.7914286780195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel Speculative Decoding (PSD) accelerates traditional Speculative Decoding (SD) by overlapping draft generation with verification. However, it remains hampered by two fundamental challenges: (1) a theoretical speedup ceiling dictated by the speed ratio between the draft and target models, and (2) high computational waste and pipeline stall due to mid-sequence token rejections of early errors. To address these limitations, we introduce \textsc{Double} (Double Retrieval Speculative Parallelism). By bridging the gap between SD and PSD, our framework resolves the Retrieval \emph{Precision-Efficiency Dilemma} through a novel synchronous mechanism. Specifically, we enable the draft model to execute iterative retrieval speculations to break the theoretical speedup limits; to alleviate rejections without rollback, the target model performs authoritative retrieval to generate multi-token guidance. \textsc{Double} is entirely training-free and lossless. Extensive experiments demonstrate state-of-the-art speedup of $\textbf{5.3}\times$ on LLaMA3.3-70B and $\textbf{2.8}\times$ on Qwen3-32B, significantly outperforming the advanced method EAGLE-3 that requires extensive model training.
- Abstract(参考訳): 並列投機復号法(PSD)は、従来の投機復号法(SD)を、検証と重なり合うドラフト生成によって加速する。
しかし,(1)原案と対象モデル間の速度比によって規定される理論的な高速化天井,(2)早期エラーの途中でのトークンの拒絶による高い計算廃棄物とパイプラインの停止,という2つの基本的な課題によって妨げられている。
これらの制限に対処するために、double Retrieval Speculative Parallelism (Double Retrieval Speculative Parallelism)を導入します。
SDとPSDのギャップを埋めることにより、新しい同期機構によってRetrieval \emph{Precision-Efficiency Dilemma}を解く。
具体的には,提案モデルにおいて,反復的検索の投機により理論的な高速化限界を突破し,ロールバックを伴わずに拒否を緩和するために,複数項目のガイダンスを生成する権威的検索を行う。
textsc{Double} は完全にトレーニング不要で、ロスレスです。
大規模な実験では、LLaMA3.3-70B で $\textbf{5.3}\times$ と Qwen3-32B で $\textbf{2.8}\times$ の最先端のスピードアップが示され、広範囲なモデルトレーニングを必要とする高度なメソッド EAGLE-3 よりも大幅に優れていた。
関連論文リスト
- VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping [52.58270801983525]
投機的復号法(SD)は視覚ARモデルの高速化に有効であることが証明されている。
部分的検証スキップによる視覚AR生成を高速化する新しいフレームワークVVSを提案する。
論文 参考訳(メタデータ) (2025-11-17T16:50:58Z) - SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference [11.957170239588535]
投機的復号化は、ドラフトモデルを使用して推測を加速する。
事前の方法は、ドラフトコストを部分的に削減するが、受け入れを低下させるか、スケーリングを制限するオーバーヘッドを導入する。
本稿では,遅延受容トレードオフを破る推論アルゴリズムであるMirror Speculative Decoding(Mirror-SD)を提案する。
論文 参考訳(メタデータ) (2025-10-15T05:22:57Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - FastEagle: Cascaded Drafting for Accelerating Speculative Decoding [6.482154864678126]
我々はFastEagleを紹介します。FastEagleは非自己回帰的なカスケードのドラフトで、ドラフト全体を1つのフォワードパスで出力します。
FastEagleは、競争力のある受け入れ動作を維持しながら、強力な自己回帰型ドラフトラに対して、ウォールタイムの大幅なスピードアップを提供する。
論文 参考訳(メタデータ) (2025-09-24T09:38:32Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [7.14946066475415]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
我々のアルゴリズムは、標準の自己回帰復号よりも最大2.8倍の高速化を示す。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。