Fugu-MT 論文翻訳(概要): EasySpec: Layer-Parallel Speculative Decoding for Efficient Multi-GPU Utilization

論文の概要: EasySpec: Layer-Parallel Speculative Decoding for Efficient Multi-GPU Utilization

arxiv url: http://arxiv.org/abs/2502.02493v1
Date: Tue, 04 Feb 2025 17:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:56.37648
Title: EasySpec: Layer-Parallel Speculative Decoding for Efficient Multi-GPU Utilization
Title（参考訳）: EasySpec: 効率的なマルチGPU利用のためのレイヤ並列投機的デコーディング
Authors: Yize Wu, Ke Gao, Yanjun Wu,
Abstract要約: EasySpecは、マルチGPU利用効率を最適化する層並列投機戦略である。バニラ復号と比較してピーク速度は4.17倍に達する。ドラフトステージは最大1.62倍まで加速でき、最大精度は7%しか低下しない。
参考スコア（独自算出の注目度）: 11.31996515243674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding is an effective and lossless method for Large Language Model (LLM) inference acceleration. It employs a smaller model to generate a draft token sequence, which is then verified by the original base model. In multi-GPU systems, inference latency can be further reduced through tensor parallelism (TP), while the optimal TP size of the draft model is typically smaller than that of the base model, leading to GPU idling during the drafting stage. To solve this problem, we propose EasySpec, a layer-parallel speculation strategy that optimizes the efficiency of multi-GPU utilization.EasySpec breaks the sequential execution order of layers in the drafting model, enabling multi-layer parallelization across devices, albeit with some induced approximation errors. After each drafting-and-verification iteration, the draft model's key-value (KV) cache is calibrated in a single forward pass, preventing long-term error accumulation at minimal additional latency. We evaluated EasySpec on several mainstream open-source LLMs, using smaller versions of models from the same series as drafters. The results demonstrate that EasySpec can achieve a peak speedup of 4.17x compared to vanilla decoding, while preserving the original distribution of the base LLMs. Specifically, the drafting stage can be accelerated by up to 1.62x with a maximum accuracy drop of only 7%, requiring no training or fine-tuning on the draft models.
Abstract（参考訳）: 投機的復号法はLarge Language Model (LLM) の推論高速化に有効でロスレスな手法である。より小さなモデルを使用してドラフトトークンシーケンスを生成し、元のベースモデルによって検証される。マルチGPUシステムでは、推論レイテンシはテンソル並列性(TP)によってさらに小さくすることができるが、ドラフトモデルの最適TPサイズは一般的にベースモデルのそれよりも小さくなり、ドラフト段階でGPUアイドリングが発生する。この問題を解決するために,多GPU利用効率を最適化する層並列投機戦略であるEasySpecを提案する。EasySpecは起草モデルにおけるレイヤのシーケンシャルな実行順序を破り,デバイス間でのマルチ層並列化を実現する。ドラフトと検証の各イテレーションの後、ドラフトモデルのキーバリュー(KV)キャッシュは、単一のフォワードパスでキャリブレーションされる。我々は,複数の主要なオープンソース LLM 上で EasySpec の評価を行った。その結果、EasySpecはバニラ復号法に比べて4.17倍のピーク速度を達成でき、ベースLLMのオリジナル分布を保存できることがわかった。具体的には、ドラフト段階は最大1.62倍まで加速でき、最大精度は7%しか低下せず、ドラフトモデルの訓練や微調整は不要である。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
SwiftSpec: Ultra-Low Latency LLM Decoding by Scaling Asynchronous Speculative Decoding [12.452068338225358]
本稿では,LLMデコーディングの超低レイテンシを目標とするSwiftSpecを紹介する。 5つのモデルファミリと6つのデータセットで、SwiftSpecは最先端の投機的デコードシステムよりも平均1.75倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-06-12T21:15:58Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。 MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2025-03-17T08:38:45Z)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳（メタデータ） (2025-02-20T18:58:10Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。 Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文参考訳（メタデータ） (2024-02-29T19:55:06Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。 CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文参考訳（メタデータ） (2023-12-18T18:59:46Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。