論文の概要: SwiftSpec: Ultra-Low Latency LLM Decoding by Scaling Asynchronous Speculative Decoding
- arxiv url: http://arxiv.org/abs/2506.11309v1
- Date: Thu, 12 Jun 2025 21:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.586525
- Title: SwiftSpec: Ultra-Low Latency LLM Decoding by Scaling Asynchronous Speculative Decoding
- Title(参考訳): SwiftSpec: 非同期投機的デコーディングのスケーリングによる超低レイテンシLLMデコーディング
- Authors: Ziyi Zhang, Ziheng Jiang, Chengquan Jiang, Menghan Yu, Size Zheng, Haibin Lin, Henry Hoffmann, Xin Liu,
- Abstract要約: 本稿では,LLMデコーディングの超低レイテンシを目標とするSwiftSpecを紹介する。
5つのモデルファミリと6つのデータセットで、SwiftSpecは最先端の投機的デコードシステムよりも平均1.75倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 12.452068338225358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-latency decoding for large language models (LLMs) is crucial for applications like chatbots and code assistants, yet generating long outputs remains slow in single-query settings. Prior work on speculative decoding (which combines a small draft model with a larger target model) and tensor parallelism has each accelerated decoding. However, conventional approaches fail to apply both simultaneously due to imbalanced compute requirements (between draft and target models), KV-cache inconsistencies, and communication overheads under small-batch tensor-parallelism. This paper introduces SwiftSpec, a system that targets ultra-low latency for LLM decoding. SwiftSpec redesigns the speculative decoding pipeline in an asynchronous and disaggregated manner, so that each component can be scaled flexibly and remove draft overhead from the critical path. To realize this design, SwiftSpec proposes parallel tree generation, tree-aware KV cache management, and fused, latency-optimized kernels to overcome the challenges listed above. Across 5 model families and 6 datasets, SwiftSpec achieves an average of 1.75x speedup over state-of-the-art speculative decoding systems and, as a highlight, serves Llama3-70B at 348 tokens/s on 8 Nvidia Hopper GPUs, making it the fastest known system for low-latency LLM serving at this scale.
- Abstract(参考訳): 大規模言語モデル(LLM)の低レイテンシデコーディングは、チャットボットやコードアシスタントのようなアプリケーションには不可欠だが、単一クエリ設定では長いアウトプットの生成は遅いままである。
投機的デコーディング(小さなドラフトモデルとより大きなターゲットモデルを組み合わせたもの)とテンソル並列性は、それぞれデコーディングを加速させる。
しかし、従来の手法では、不均衡な計算要求(ドラフトモデルとターゲットモデルの両方)、KVキャッシュの不整合、小バッチテンソル並列性による通信オーバーヘッドにより、同時に適用できない。
本稿では,LLMデコーディングの超低レイテンシを目標とするSwiftSpecを紹介する。
SwiftSpecは、投機的デコードパイプラインを非同期かつ非集約的に再設計し、各コンポーネントを柔軟にスケールし、クリティカルパスからドラフトオーバーヘッドを取り除くことができる。
この設計を実現するために、SwiftSpecは、上記の課題を克服するために、並列ツリー生成、ツリー対応KVキャッシュ管理、フューズされたレイテンシ最適化カーネルを提案する。
5つのモデルファミリと6つのデータセットにわたって、SwiftSpecは最先端の投機的デコードシステムよりも平均1.75倍のスピードアップを実現し、8つのNvidia Hopper GPU上で348トークン/秒でLlama3-70Bを提供する。
関連論文リスト
- Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Hardware-Efficient Attention for Fast Decoding [13.958883001629644]
Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。
最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
論文 参考訳(メタデータ) (2025-05-27T17:54:07Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - EasySpec: Layer-Parallel Speculative Decoding for Efficient Multi-GPU Utilization [11.31996515243674]
EasySpecは、マルチGPU利用効率を最適化する層並列投機戦略である。
バニラ復号と比較してピーク速度は4.17倍に達する。
ドラフトステージは最大1.62倍まで加速でき、最大精度は7%しか低下しない。
論文 参考訳(メタデータ) (2025-02-04T17:09:21Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。