論文の概要: MineDraft: A Framework for Batch Parallel Speculative Decoding
- arxiv url: http://arxiv.org/abs/2603.18016v1
- Date: Tue, 24 Feb 2026 17:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.389496
- Title: MineDraft: A Framework for Batch Parallel Speculative Decoding
- Title(参考訳): MineDraft: 並列投機的デコーディングのためのフレームワーク
- Authors: Zhenwei Tang, Arun Verma, Zijian Zhou, Zhaoxuan Wu, Alok Prakash, Daniela Rus, Bryan Kian Hsiang Low,
- Abstract要約: 投機的復号(SD)は、より小さなドラフトモデルを用いて、より大きなターゲットモデルによって検証されたドラフトトークンを提案することで、大きな言語モデル推論を加速する。
提案するMineDraftは,バッチ並列投機的復号化フレームワークで,検証と重なり合うことで遅延を効果的に隠蔽する。
実験の結果,MineDraftのスループット(最大75%)とエンドツーエンドのレイテンシ(最大39%)を標準SDよりも大幅に改善した。
- 参考スコア(独自算出の注目度): 87.76522944353825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) accelerates large language model inference by using a smaller draft model to propose draft tokens that are subsequently verified by a larger target model. However, the performance of standard SD is often limited by the strictly sequential execution of these drafting and verification stages. To address this, this paper proposes MineDraft, a batch parallel speculative decoding (PSD) framework designed to effectively hide drafting latency by overlapping it with verification. Our theoretical analysis shows that PSD is substantially more efficient than standard SD. MineDraft realizes the PSD through a novel batch-parallel design that maintains two batches of requests, overlapping drafting for one batch with verification for the other. Our experimental results show significant improvements of MineDraft in both throughput (up to 75%) and end-to-end latency (up to 39%) over standard SD. Furthermore, we have implemented MineDraft as a plugin for vLLM, demonstrating its practicality for production-ready inference systems.
- Abstract(参考訳): 投機的復号(SD)は、より小さなドラフトモデルを用いて、より大きなターゲットモデルによって検証されたドラフトトークンを提案することで、大きな言語モデル推論を加速する。
しかし、標準SDの性能はこれらのドラフトと検証段階の厳格な逐次実行によって制限されることが多い。
そこで本研究では,バッチ並列投機復号(PSD)フレームワークであるMineDraftを提案する。
理論解析の結果,PSDは標準SDよりもはるかに効率的であることがわかった。
MineDraftは、新しいバッチ並列設計によりPSDを実現し、2つのリクエストのバッチを維持し、もう1つの検証で1つのバッチのドラフトを重複させる。
実験の結果,MineDraftのスループット(最大75%)とエンドツーエンドのレイテンシ(最大39%)を標準SDよりも大幅に改善した。
さらに,本研究では,MineDraft を vLLM プラグインとして実装し,実運用対応推論システムの実用性を実証した。
関連論文リスト
- PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - TABED: Test-Time Adaptive Ensemble Drafting for Robust Speculative Decoding in LVLMs [14.030784220154151]
本研究では,大規模視覚言語モデルに対するTABED(Test-time Adaptive Batched Ensemble Drafting)を提案する。
TABEDは、SD設定で利用可能な過去の真実からの逸脱を利用して、バッチ推論によって得られた複数のドラフトをアンサンブルする。
自動回帰復号法よりも1.74倍のロバストなウォールタイム・スピードアップを実現し、単一起草法よりも5%改善した。
論文 参考訳(メタデータ) (2026-01-28T08:16:57Z) - SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。
自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。
本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文 参考訳(メタデータ) (2025-11-01T16:12:56Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。