論文の概要: Batch Speculative Decoding Done Right
- arxiv url: http://arxiv.org/abs/2510.22876v1
- Date: Sun, 26 Oct 2025 23:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.405896
- Title: Batch Speculative Decoding Done Right
- Title(参考訳): Batch Speculative Decoding Done Right
- Authors: Ranran Haoran Zhang, Soumik Dey, Ashirbad Mishra, Hansi Wu, Binbin Li, Rui Zhang,
- Abstract要約: 投機的復号化は、小さなドラフトモデルを用いてLLM推論を高速化し、ターゲットモデルが並列に検証する複数のトークンを提案する。
同じバッチ内のシーケンスは、異なる数のドラフトトークンを受け取り、右アライメントを破り、位置IDを破損させ、アテンションマスク、KV-cache状態となる。
いくつかの既存のバッチ実装が出力等価性に反していることが示され、投機的復号化は標準的な自己回帰生成と同一のトークンシーケンスを生成する必要があるという基本的な要件が示される。
- 参考スコア(独自算出の注目度): 6.388537448371643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding speeds up LLM inference by using a small draft model to propose multiple tokens that a target model verifies in parallel. Extending this idea to batches is essential for production serving, but it introduces the ragged tensor problem: sequences in the same batch accept different numbers of draft tokens, breaking right-alignment and corrupting position IDs, attention masks, and KV-cache state. We show that several existing batch implementations violate output equivalence-the fundamental requirement that speculative decoding must produce identical token sequences to standard autoregressive generation. These violations occur precisely due to improper handling of the ragged tensor problem. In response, we (1) characterize the synchronization requirements that guarantee correctness, (2) present a correctness-first batch speculative decoding EQSPEC that exposes realignment as consuming 40% of overhead, and (3) introduce EXSPEC, which maintains a sliding pool of sequences and dynamically forms same-length groups, to reduce the realignment overhead while preserving per-sequence speculative speedups. On the SpecBench dataset, across Vicuna-7B/68M, Qwen3-8B/0.6B, and GLM-4-9B/0.6B target/draft pairs, our approach achieves up to 3$\times$ throughput improvement at batch size 8 compared to batch size 1, with efficient scaling through batch size 8, while maintaining 95% output equivalence. Our method requires no custom kernels and integrates cleanly with existing inference stacks. Our code is available at https://github.com/eBay/spec_dec.
- Abstract(参考訳): 投機的復号化は、小さなドラフトモデルを用いてLLM推論を高速化し、ターゲットモデルが並列に検証する複数のトークンを提案する。
このアイデアをバッチに拡張することは、本番サービスに不可欠であるが、ラッジテンソル問題を導入している: 同じバッチ内のシーケンスは、異なる数のドラフトトークンを受け入れ、右アライメントを破り、位置IDを破損し、アテンションマスク、KV-cache状態。
いくつかの既存のバッチ実装が出力等価性に反していることが示され、投機的復号化は標準的な自己回帰生成と同一のトークンシーケンスを生成する必要があるという基本的な要件が示される。
これらの違反は、引き裂かれたテンソル問題の不適切なハンドリングによって、正確に発生する。
その結果,(1) 正当性を保証するための同期要件を特徴付けること,(2) 正当性第一バッチ投機的復号化EQSPEC を提示すること,(3) シーケンスのスライディングプールを維持し,同じ長さの群を動的に形成するEXSPEC を導入し,シーケンスごとの投機的高速化を保ちながら再帰的オーバーヘッドを低減する。
SpecBench データセットでは,Vicuna-7B/68M,Qwen3-8B/0.6B,GLM-4-9B/0.6B ターゲット/ドラフトペアに対して,バッチサイズ 1 よりもバッチサイズ 8 で最大3$\times$スループット向上を実現し,バッチサイズ 8 による効率的なスケーリングを実現し,95% の出力等価性を維持した。
本手法では,カスタムカーネルを必要とせず,既存の推論スタックとクリーンに統合する。
私たちのコードはhttps://github.com/eBay/spec_dec.comで利用可能です。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - AutoJudge: Judge Decoding Without Manual Annotation [13.451750613294054]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化する手法である。
提案手法は,ターゲットモデルとドラフトモデルとのミスマッチのどれを修正すべきかを,半グレディな探索アルゴリズムに頼っている。
論文 参考訳(メタデータ) (2025-04-28T17:59:28Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。
LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。