論文の概要: ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving
- arxiv url: http://arxiv.org/abs/2410.01228v2
- Date: Wed, 03 Sep 2025 20:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.875902
- Title: ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving
- Title(参考訳): ConServe: LLMオンラインとオフラインのコサービングのためのファイングラインドGPUハーベスティング
- Authors: Yifan Qiao, Shu Anzai, Shan Yu, Haoran Ma, Shuo Yang, Yang Wang, Miryung Kim, Yongji Wu, Yang Zhou, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica, Harry Xu,
- Abstract要約: ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
- 参考スコア(独自算出の注目度): 61.35068981176018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) serving demands low latency and high throughput, but high load variability makes it challenging to achieve high GPU utilization. In this paper, we identify a synergetic but overlooked opportunity to co-serve latency-critical online requests alongside latency-tolerant offline tasks such as model benchmarking. While promising, existing serving systems fail to co-serve them efficiently, as their coarse-grained resource management at the request or iteration level cannot harvest millisecond-level GPU idle cycles without introducing interference that violates online latency objectives. ConServe is a new LLM co-serving system that achieves high throughput and strong online latency guarantees by managing resources at finer granularities. ConServe introduces three techniques: (1) a latency-aware token-level scheduler that precisely sizes offline batches and tokens to fit within online latency objectives; (2) sub-iteration, layer-wise preemption that allows offline tasks to yield to online load spikes; and (3) incremental KV cache management that enables preempting and resuming offline requests at near-zero cost. Evaluations with Llama-3.1 and Qwen-2.5 models on real-world workloads show that ConServe delivers an average of 2.2$\times$ higher throughput and reduces online serving tail latency by 2.9$\times$ on average compared to state-of-the-art systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は低レイテンシと高スループットを必要とするが、高い負荷変動により、高いGPU利用を実現するのは難しい。
本稿では、モデルベンチマークのような遅延耐性のオフラインタスクと並行して、レイテンシクリティカルなオンライン要求を協調的に処理する、シナジー的だが見過ごされた機会を特定する。
既存のサービスシステムは、要求やイテレーションレベルでの粗粒度のリソース管理では、オンラインレイテンシーの目的に反する干渉を伴わずにミリ秒レベルのGPUアイドルサイクルを取得できないため、効率的にコサーブできない。
ConServeは、リソースをより細かい粒度で管理することで、高いスループットと強力なオンラインレイテンシ保証を実現する、新しいLLMコサービスシステムである。
ConServeは、(1)オフラインのバッチとトークンをオンラインのレイテンシーの目標に正確にサイズするレイテンシ対応のトークンレベルスケジューラ、(2)オフラインのタスクがオンラインの負荷スパイクに収まるようにするサブイテレーション、レイヤワイズプリエンプション、(3)オフラインのリクエストをほぼゼロのコストでプリエンプションと再開を可能にするインクリメンタルKVキャッシュ管理の3つのテクニックを紹介している。
Llama-3.1とQwen-2.5モデルによる実世界のワークロードの評価によると、ConServeは平均2.2$\times$高いスループットを提供し、オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$\times$に下げている。
関連論文リスト
- PLA-Serve: A Prefill-Length-Aware LLM Serving System [33.313531352453346]
PLA-Serveは、TTFTレイテンシを低減するために、異なるプロンプト長でリクエストを特定し、分解する。
提案手法は,適応型スケジューリング戦略のモチベーションとして,応答長の変動がボトルネックを生じさせることを観察する。
PLA-Serveは、プリフィル*-Lang*デコードデアグリゲーションの下でのバニラSGと比較して、プリフィル遅延を30%以上削減する。
論文 参考訳(メタデータ) (2026-01-04T18:14:24Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - AugServe: Adaptive Request Scheduling for Augmented Large Language Model Inference Serving [6.505016440664893]
AugServeは、待ち時間を削減するとともに、拡張大型言語モデル(LLM)の効率的なスループットを向上させるために設計された効率的な推論フレームワークである。
実験の結果、AugServeはvLLMとInferCeptよりも4.7-33.1xと3.3-13.2x高いスループットを実現し、変動するTTFTを最大96.3%、95.0%削減した。
論文 参考訳(メタデータ) (2025-12-03T17:49:38Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - DuetServe: Harmonizing Prefill and Decode for LLM Serving via Adaptive GPU Multiplexing [15.376910065679994]
DuetServeは、単一のGPU内で分散レベルの分離を実現する統一LLMサービスフレームワークである。
DuetServeは、最先端フレームワークと比較して、低ジェネレーションレイテンシを維持しながら、スループットを最大1.3倍改善する。
論文 参考訳(メタデータ) (2025-11-06T20:18:34Z) - Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.348953136575379]
HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。
運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文 参考訳(メタデータ) (2025-01-15T16:32:27Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Exploiting Student Parallelism for Efficient GPU Inference of BERT-like Models in Online Services [27.998951498347626]
我々は,オンラインワークロード上でのGPU推論の現実的な設定について,sysを提示する。
サイスは、積み重ね蒸留とアンサンブルの強化を採用し、オリジナルの深層モデルを浅いが事実上積み重ねられた学生モデルのグループに蒸留する。
その結果、sysのベースラインは4.1timessim 1.6times$で精度を保ち、ワークロードバーストに対して最大22.27times$でパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-08-22T16:31:32Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - A Real-Time Adaptive Multi-Stream GPU System for Online Approximate Nearest Neighborhood Search [3.116913746878115]
RTAMS-GANNS(Real-Time Adaptive Multi-Stream GPU ANNS System)を提案する。
私たちのアーキテクチャはその目的を3つの重要な進歩を通して達成します。
提案システムは実世界の産業検索やレコメンデーションシステムにも展開されており、毎日数億人のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2024-08-06T03:44:06Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - GPU-Accelerated Machine Learning in Non-Orthogonal Multiple Access [71.58925117604039]
非直交多重アクセス(Noma)は、将来の5Gおよび6Gネットワークに必要な大規模な接続を可能にする興味深い技術である。
線形処理と非線形処理の両方の利点を組み合わせたニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-13T09:38:23Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。