論文の概要: StreamServe: Adaptive Speculative Flows for Low-Latency Disaggregated LLM Serving
- arxiv url: http://arxiv.org/abs/2604.09562v1
- Date: Wed, 11 Feb 2026 21:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.497561
- Title: StreamServe: Adaptive Speculative Flows for Low-Latency Disaggregated LLM Serving
- Title(参考訳): StreamServe: 低レイテンシ分散LDMサービングのための適応的投機フロー
- Authors: Satyam Kumar, Arpit Singh Gautam, Kailash Talreja, Saurabh Jha,
- Abstract要約: StreamServeは、非集約のプリフィルデコードサービスアーキテクチャである。
StreamServeはテンソル並列vLLMベースラインと比較してレイテンシを11~18倍削減する。
スループットは、要約タスクで毎秒2235トークンに達する。
- 参考スコア(独自算出の注目度): 2.1072136327189672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient LLM serving must balance throughput and latency across diverse, bursty workloads. We introduce StreamServe, a disaggregated prefill decode serving architecture that combines metric aware routing across compute lanes with adaptive speculative decoding that tunes speculation depth online from runtime signals. StreamServe comprises four components: StreamScheduler for request orchestration, FlowGuard for multi signal routing, PipeServe Engine for disaggregated prefill decode execution on multi GPU, and SpecuStream for runtime adaptive speculation. We evaluate StreamServe on four benchmarks ALPACA, GSM8K, HUMANEVAL, and SUM with 80 queries each and 320 total using 4 A800 40GB GPUs configured as two stream pairs. Across these workloads, StreamServe reduces latency by 11 to 18 times relative to tensor parallel vLLM baselines and reaches throughput up to 2235 tokens per second on summarization tasks. Time per output token remains stable across configurations, indicating that the gains arise from architectural efficiency rather than token quality degradation. Although evaluated on a single node 4 GPU setup, these results suggest that jointly adapting routing and speculation within a disaggregated framework creates a distinct operating regime for LLM inference.
- Abstract(参考訳): 効率的なLLMサービスでは、さまざまなバーストワークロード間でスループットとレイテンシをバランスさせなければなりません。
本稿では,分散プリフィル・デコード・サービスアーキテクチャであるStreamServeを紹介した。これは計算レーンを横断するメトリック・アウェアメント・ルーティングと,実行時信号からオンラインの推測深度を調整した適応型投機的デコーディングを組み合わせたものだ。
StreamServeには、リクエストオーケストレーション用のStreamScheduler、マルチシグナルルーティング用のFlowGuard、マルチGPU上での非集約型プリフィルデコード実行用のPipeServe Engine、ランタイム適応型推測のためのSpecuStreamの4つのコンポーネントが含まれている。
ストリームペアを2つに設定した4つのA800 40GB GPUを用いて, ALPACA, GSM8K, HUMANEVAL, SUMの4つのベンチマークをそれぞれ80クエリ, 320の合計で評価した。
これらのワークロード全体で、StreamServeはテンソル並列vLLMベースラインと比較してレイテンシを11~18倍削減し、要約タスクで毎秒2235トークンに達する。
出力トークン当たりの時間は構成全体で安定しており、トークンの品質劣化よりもアーキテクチャの効率が向上することを示している。
単一のノード4GPU設定で評価されるが、これらの結果は、分離されたフレームワーク内でルーティングと憶測を共同で適応させることで、LSM推論の異なる操作機構が生成されることを示唆している。
関連論文リスト
- Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines [0.7551404527457958]
任意のマルチLLMエージェントをGPUクラスタに効率的にスケジュールする新しいエージェントサービスシステムについて述べる。
Scepsyは、LLMを独立して最適化するシステムと比較して、最大2.4倍のスループットと27倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2026-04-16T16:15:29Z) - Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference [5.685908474026849]
エッジデバイス上での高品質な自動音声認識(ASR)は、GPUアクセラレーションなしでCPUで完全に動作している間に、精度、レイテンシ、メモリフットプリントを共同で最適化するモデルを必要とする。
我々は,エンコーダデコーダ,トランスデューサ,LDMベースのパラダイムを包含し,バッチ,チャンク,ストリーミング推論モードで評価する,最先端のASRアーキテクチャの体系的研究を行った。
推奨構成であるint4 k-quant変種は、8つの標準ベンチマークで平均8.20%のストリーミングWERを実現し、0.56秒のアルゴリズムレイテンシでCPU上でのリアルタイムよりも快適に動作します。
論文 参考訳(メタデータ) (2026-04-16T00:04:32Z) - Efficient Learned Data Compression via Dual-Stream Feature Decoupling [11.752785837648199]
本稿では,深層並列処理を浅層並列ストリームに置き換えるために,ローカルおよびグローバルコンテキストをアンハングするDual-Stream Multi-Scale Decouplerを提案する。
本手法は,低レイテンシとメモリ使用量を維持しながら,圧縮比とスループットの両面で最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-08T16:05:24Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index [11.944339418621693]
因果自己回帰ビデオ生成パイプラインに対するシステムレベルの推論最適化を実装した。
5秒の480Pビデオでは、1.58倍のスピードアップが達成され、リアルタイムインタラクティブアプリケーションに対する効果的なサポートを提供する。
論文 参考訳(メタデータ) (2026-03-02T10:18:18Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。
本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。
さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。