論文の概要: SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2605.08151v1
- Date: Mon, 04 May 2026 01:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.400546
- Title: SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference
- Title(参考訳): SPECTRE:資源効率の良いLLM推論のためのハイブリッド正規並列投機
- Authors: Jincheng Xie, Yawen Ling, Qi Xiao, Feiyu Zhang, Zhongyi Huang, Wen Hu, Yu Zheng,
- Abstract要約: LLMサービスプラットフォームはマルチモデルクラウドシステムとしてますます多くデプロイされ、ユーザの要求は長く抑えられている。
本稿では,高負荷大モデルサービスのためのリモートドラフトラとして,未使用のテールモデルサービスを再利用するフレームワークであるSPECTREを提案する。
SPECTREは、大容量のサービススループットを継続的に改善しつつ、テールモデルサービスのネイティブワークロードに小さな干渉しか生じないことを示す。
- 参考スコア(独自算出の注目度): 11.392365535797586
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM serving platforms are increasingly deployed as multi-model cloud systems, where user demand is often long-tailed: a few popular large models receive most requests, while many smaller tail models remain underutilized. We propose \textbf{SPECTRE} (Parallel \textbf{SPEC}ulative Decoding with a Multi-\textbf{T}enant \textbf{RE}mote Drafter), a serving framework that reuses underutilized tail-model services as remote drafters for heavily loaded large-model services through speculative decoding. SPECTRE enables draft generation and target-side verification to run in parallel, and makes such parallelism effective through three techniques: a hybrid ordinary-parallel speculative decoding strategy guided by a threshold derived from throughput analysis, speculative priority scheduling to preserve draft--target overlap under multi-tenant traffic, and draft-side prompt compression to reduce draft latency. We implement SPECTRE in \texttt{SGLang} and evaluate it across multiple draft--target model pairs, reasoning benchmarks, real-world long-context workloads, and a wide range of batch sizes. Results show that SPECTRE consistently improves large-model serving throughput while causing only minor interference to the native workloads of tail-model services. In large-model deployments, including Qwen3-235B-A22B with TP=8, SPECTRE achieves up to \textbf{2.28$\times$ speedup} over autoregressive decoding and up to an additional \textbf{66\% relative improvement} over the strongest speculative decoding baselines. Talk is cheap, we show you the code: https://github.com/sgl-project/sglang/pull/22272.
- Abstract(参考訳): LLMサービスプラットフォームは、ユーザ需要が長い場合が多いマルチモデルクラウドシステムとして、ますます多くデプロイされている。
Parallel \textbf{SPEC}ulative Decoding with a Multi-\textbf{T}enant \textbf{RE}mote Drafter は、投機的デコーディングを通じて大容量大容量サービスのリモートドラフトアとして、未使用のテールモデルサービスを再利用するサービスフレームワークである。
SPECTREは,スループット解析から導出されるしきい値に導かれるハイブリッド常並列投機的デコーディング戦略,マルチテナントトラフィック下でのドラフト-ターゲット重複を保存する投機的優先度スケジューリング,ドラフト-サイドのプロンプト圧縮という3つの手法によって,ドラフト生成とターゲット-サイド検証を並列化可能にする。
SPECTREをtexttt{SGLang}に実装し、複数のドラフトターゲットモデルペア、推論ベンチマーク、現実世界の長期コンテキストワークロード、幅広いバッチサイズで評価する。
結果は、SPECTREが大容量のサービススループットを継続的に改善し、テールモデルサービスのネイティブワークロードに小さな干渉しか生じないことを示している。
TP=8のQwen3-235B-A22Bを含む大規模なデプロイメントでは、SPECTREは自動回帰デコードで \textbf{2.28$\times$ speedup} に達し、最も強い投機的デコードベースラインで \textbf{66\% の相対的改善が加えられる。
講演は安く、コードを示す: https://github.com/sgl-project/sglang/pull/22272。
関連論文リスト
- SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism [20.3565068078231]
仮説復号における分岐並列性を解き放つための新しいフレームワーク textbfSpecBranch を提案する。
SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
論文 参考訳(メタデータ) (2025-05-16T07:45:05Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。
本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。
さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。