論文の概要: An Interpretable Latency Model for Speculative Decoding in LLM Serving
- arxiv url: http://arxiv.org/abs/2605.15051v1
- Date: Thu, 14 May 2026 16:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.136007
- Title: An Interpretable Latency Model for Speculative Decoding in LLM Serving
- Title(参考訳): LLM実行における投機的復号化のための解釈可能なレイテンシモデル
- Authors: Linghao Kong, Megan Flynn, Michael Peng, Nir Shavit, Mark Kurtz, Alexandre Marques,
- Abstract要約: 本研究では,大規模言語モデル提供システムにおける投機的復号化のための簡易かつ解釈可能な遅延モデルを開発する。
検証器およびドラフトアモデルサイズ,プリフィルおよびデコード長,要求率,ドラフト長,受入確率をまたいだ vLLM の広範な測定値を用いて,本モデルの有効性を検証する。
フレームワークが専門家モデルの混合にどのように拡張されているかを示す。
- 参考スコア(独自算出の注目度): 39.74508663765912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (SD) accelerates large language model (LLM) inference by using a smaller draft model to propose multiple tokens that are verified by a larger target model in parallel. While prior work demonstrates substantial speedups in isolated or fixed-batch settings, the behavior of SD in production serving systems remains poorly understood: request load varies over time, and effective batch size emerges from the serving system rather than being directly controlled or observed. In this work, we develop a simple and interpretable latency model for SD in LLM serving. We infer effective batch size from request rate using Little's Law and decompose per-request demand into load-independent and load-dependent components for prefill, drafting, and verification. We validate our model using extensive measurements from vLLM across verifier and drafter model sizes, prefill and decode lengths, request rates, draft lengths, and acceptance probabilities. The model accurately describes observed latency, explains why speedups often diminish as server load increases, and characterizes how draft length, acceptance rate, and verifier-drafter size shape latency across serving conditions, with implications for configuring SD in deployed systems. We further show how the framework extends to mixture of experts models, where sparse expert activation changes the effective service costs across load regimes. Together, our results provide a structured framework for understanding SD in real LLM serving systems.
- Abstract(参考訳): 投機的復号(SD)は、より小さなドラフトモデルを用いて、より大きなターゲットモデルによって並列に検証される複数のトークンを提案することにより、大きな言語モデル(LLM)推論を加速する。
以前の作業では、分離あるいは固定バッチ設定でかなりのスピードアップが示されていたが、本番システムにおけるSDの動作は、時間とともに要求負荷が変化し、効果的なバッチサイズがサービスシステムから直接制御されるか、観察されるかではなく、出現する。
本研究では,LSMサービスにおけるSDの簡易かつ解釈可能なレイテンシモデルを開発する。
我々は、Littleの法則を用いてリクエストレートから効果的なバッチサイズを推定し、要求ごとの要求をプリフィル、ドラフト、検証のために負荷非依存および負荷依存のコンポーネントに分解する。
検証器およびドラフトアモデルサイズ,プリフィルおよびデコード長,要求率,ドラフト長,受入確率をまたいだ vLLM の広範な測定値を用いて,本モデルの有効性を検証する。
このモデルは、観測されたレイテンシを正確に記述し、サーバの負荷の増加に伴ってスピードアップが減少する理由を説明し、デプロイされたシステムにおけるSDの設定に影響を及ぼすように、サービス条件間のドラフト長、受け入れ率、検証後サイズ形状のレイテンシを特徴付ける。
さらに、このフレームワークが専門家モデルの混合にどのように拡張されているかを示します。
その結果,実LLMサービスシステムにおけるSDの理解のための構造化された枠組みが得られた。
関連論文リスト
- MineDraft: A Framework for Batch Parallel Speculative Decoding [87.76522944353825]
投機的復号(SD)は、より小さなドラフトモデルを用いて、より大きなターゲットモデルによって検証されたドラフトトークンを提案することで、大きな言語モデル推論を加速する。
提案するMineDraftは,バッチ並列投機的復号化フレームワークで,検証と重なり合うことで遅延を効果的に隠蔽する。
実験の結果,MineDraftのスループット(最大75%)とエンドツーエンドのレイテンシ(最大39%)を標準SDよりも大幅に改善した。
論文 参考訳(メタデータ) (2026-02-24T17:24:50Z) - SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration [13.369324372222735]
大型言語モデル(LLM)は、キャプション、検索、レコメンデーション、クリエイティブコンテンツ生成といったインタラクティブなマルチメディアアプリケーションを支える。
投機的復号化は、軽量なドラフトモデルを使用してレイテンシを低減するが、効果的なドラフトモデルを取得し、チューニングし、維持するコストと複雑さによって、デプロイメントは制限されることが多い。
我々は,FIT(Fisher Information Trace)をベースとしたLLMのレイヤプルーニングによるドラフトモデルを構築する,完全トレーニングフリーでプラグイン・アンド・プレイのフレームワークであるSDFPを提案する。
論文 参考訳(メタデータ) (2026-02-05T10:02:00Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Semi-Clairvoyant Scheduling of Speculative Decoding Requests to Minimize LLM Inference Latency [4.372762934308627]
本稿では,LAPS-SD(Least-Attained/Perceived-Service for Speculative Decoding)と呼ばれる半クレアボイト要求スケジューリングアルゴリズムを提案する。
LAPS-SDは、デコーディング中に、要求を特徴に応じて適応的にスケジューリングすることで、平均推論遅延を効果的に最小化することができる。
LAPS-SDは、最先端のスケジューリング手法と比較して、推論遅延を約39%削減する。
論文 参考訳(メタデータ) (2025-05-20T04:12:37Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。