論文の概要: PipeDec: Low-Latency Pipeline-based Inference with Dynamic Speculative Decoding towards Large-scale Models
- arxiv url: http://arxiv.org/abs/2504.04104v1
- Date: Sat, 05 Apr 2025 08:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:29.023732
- Title: PipeDec: Low-Latency Pipeline-based Inference with Dynamic Speculative Decoding towards Large-scale Models
- Title(参考訳): PipeDec: 大規模モデルに向けた動的投機デコードによる低レイテンシパイプラインベース推論
- Authors: Haofei Yin, Mengbai Xiao, Rouzhou Lu, Xiao Zhang, Dongxiao Yu, Guanghui Zhang,
- Abstract要約: パイプライン配置における単一タスクの低グローバルなリソース利用に対処するため,PipeDecという投機的復号化フレームワークを提案する。
動的予測ツリーはノード間の予測シーケンスを管理し、効率的な更新とプルーニングを可能にする。
LLama3.2 1Bをドラフトモデルとして、14ステージの並列パイプラインと組み合わせて、LLama3.1 70Bを6種類のデータセットで加速する実験が行われた。
- 参考スコア(独自算出の注目度): 20.212041940314016
- License:
- Abstract: Autoregressive large language model inference primarily consists of two stages: pre-filling and decoding. Decoding involves sequential computation for each token, which leads to significant latency. Speculative decoding is a technique that leverages the draft model combined with large model verification to enhance parallelism without sacrificing accuracy. However, existing external prediction methods face challenges in adapting to multi-node serial deployments. While they can maintain speedup under such conditions, the high latency of multi-node deployments ultimately results in low overall efficiency. We propose a speculative decoding framework named PipeDec to address the low global resource utilization of single tasks in pipeline deployments thereby reducing decoding latency. We integrate a draft model into the pipeline of the large model and immediately forward each prediction from the draft model to subsequent pipeline stages. A dynamic prediction tree manages prediction sequences across nodes, enabling efficient updating and pruning. This approach leverages the draft model's predictions to utilize all pipeline nodes for parallel decoding of a single task. Experiments were conducted using LLama3.2 1B as the draft model in conjunction with a 14-stage parallel pipeline to accelerate LLama3.1 70B by six different types of datasets. During the decoding phase of a single task, PipeDec achieved a 4.46x-7.79x speedup compared to traditional pipeline parallelism and a 2.2x-2.69x speedup compared to baseline tree-based speculative decoding methods. The code will be released after the review process.
- Abstract(参考訳): 自己回帰的な大言語モデル推論は、主にプリフィルとデコードという2つのステージから構成される。
復号化には各トークンの逐次計算が伴うため、大きな遅延が発生する。
投機的復号化(英: Speculative decoding)は、大規模モデルの検証と組み合わせて、精度を犠牲にすることなく並列性を向上する手法である。
しかし、既存の外部予測手法は、複数ノードのシリアル展開に適応する際の課題に直面している。
このような条件下ではスピードアップを維持することができるが、マルチノードデプロイメントのレイテンシが高いため、結果として全体的な効率は低下する。
パイプライン配置における単一タスクの低グローバルなリソース利用に対応するために,PipeDecという投機的復号化フレームワークを提案する。
ドラフトモデルを大きなモデルのパイプラインに統合し、ドラフトモデルからその後のパイプラインステージへの予測を即座に前進させます。
動的予測ツリーはノード間の予測シーケンスを管理し、効率的な更新とプルーニングを可能にする。
このアプローチでは、ドラフトモデルの予測を活用して、1つのタスクの並列デコードにすべてのパイプラインノードを使用する。
LLama3.2 1Bをドラフトモデルとして、14ステージの並列パイプラインと組み合わせて、LLama3.1 70Bを6種類のデータセットで加速する実験が行われた。
1つのタスクのデコードフェーズにおいて、PipeDecは従来のパイプラインの並列処理と比較して4.46x-7.79xのスピードアップを達成し、ベースラインツリーベースの投機的復号法に比べて2.2x-2.69xのスピードアップを達成した。
コードはレビュープロセス後にリリースされる。
関連論文リスト
- BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference [35.730941605490194]
大規模言語モデル(LLM)は多くの実世界のタスクで優れたパフォーマンスを示している。
投機的復号化は有望な解決策として現れ、より小さな補助モデルを利用して将来のトークンをドラフトしている。
本稿では,ビームサンプリングによる投機的復号化の新たな統合について検討する。
論文 参考訳(メタデータ) (2024-09-25T02:20:42Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。