論文の概要: PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding
- arxiv url: http://arxiv.org/abs/2505.01572v1
- Date: Fri, 02 May 2025 20:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.180873
- Title: PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding
- Title(参考訳): PipeSpec: 階層型LLMデコーディングにおけるステージ依存性の破壊
- Authors: Bradley McDanel, Sai Qian Zhang, Yunhai Hu, Zining Liu,
- Abstract要約: PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。
PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.734824660843965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates large language model inference by using smaller draft models to generate candidate tokens for parallel verification. However, current approaches are limited by sequential stage dependencies that prevent full hardware utilization. We present PipeSpec, a framework that generalizes speculative decoding to $k$ models arranged in a hierarchical pipeline, enabling asynchronous execution with lightweight coordination for prediction verification and rollback. Our analytical model characterizes token generation rates across pipeline stages and proves guaranteed throughput improvements over traditional decoding for any non-zero acceptance rate. We further derive closed-form expressions for steady-state verification probabilities that explain the empirical benefits of pipeline depth. Experimental results show that PipeSpec achieves up to 2.54$\times$ speedup while outperforming state-of-the-art methods. We validate PipeSpec across text summarization and code generation tasks using LLaMA 2 and 3 models, demonstrating that pipeline efficiency increases with model depth, providing a scalable approach to accelerating LLM inference on multi-device systems.
- Abstract(参考訳): 投機的復号化は、より小さなドラフトモデルを用いて、並列検証のための候補トークンを生成することにより、大きな言語モデル推論を加速する。
しかし、現在のアプローチは、完全なハードウェア利用を妨げる逐次的なステージ依存によって制限されている。
仮説デコーディングを階層的なパイプラインに配置した$k$モデルに一般化し、予測検証とロールバックのための軽量な調整による非同期実行を可能にするフレームワークであるPipeSpecを提案する。
分析モデルは,パイプラインステージ間のトークン生成率を特徴付けるとともに,非ゼロ受容率に対する従来の復号化よりも保証されたスループットの向上を証明している。
さらに、パイプライン深さの経験的利点を説明する定常検証確率の閉形式式を導出する。
実験の結果、PipeSpecは2.54$\times$ Speedupを実現し、最先端の手法より優れていた。
LLaMA 2 と 3 モデルを用いて,テキスト要約およびコード生成タスク間で PipeSpec を検証し,パイプライン効率がモデル深度で向上することを示し,マルチデバイスシステム上での LLM 推論を高速化するためのスケーラブルなアプローチを提供する。
関連論文リスト
- PipeDec: Low-Latency Pipeline-based Inference with Dynamic Speculative Decoding towards Large-scale Models [20.212041940314016]
パイプライン配置における単一タスクの低グローバルなリソース利用に対処するため,PipeDecという投機的復号化フレームワークを提案する。
動的予測ツリーはノード間の予測シーケンスを管理し、効率的な更新とプルーニングを可能にする。
LLama3.2 1Bをドラフトモデルとして、14ステージの並列パイプラインと組み合わせて、LLama3.1 70Bを6種類のデータセットで加速する実験が行われた。
論文 参考訳(メタデータ) (2025-04-05T08:31:10Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。
PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文 参考訳(メタデータ) (2024-07-16T14:52:02Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。