論文の概要: WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving
- arxiv url: http://arxiv.org/abs/2512.09472v1
- Date: Wed, 10 Dec 2025 09:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.471068
- Title: WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving
- Title(参考訳): WarmServe:マルチLLMサービングのための1対多GPUプリウォーミングの実現
- Authors: Chiheng Lou, Sheng Qi, Rui Kang, Yong Zhang, Chen Sun, Pengcheng Wang, Bingyang Liu, Xuanzhe Liu, Xin Jin,
- Abstract要約: 既存のマルチLLMサービスシステムは、より悪い推論性能でGPUの利用を最適化する。
我々は、将来のワークロードに関する知識を積んだモデルを読み込む1対多のGPUプリワームを可能にするために、普遍的なGPUワーカーを提案する。
WarmServeは、最先端のオートスケーリングベースのシステムと比較して、TTFTを最大50.8$timesで改善する。
- 参考スコア(独自算出の注目度): 17.92164698813269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying multiple models within shared GPU clusters is promising for improving resource efficiency in large language model (LLM) serving. Existing multi-LLM serving systems optimize GPU utilization at the cost of worse inference performance, especially time-to-first-token (TTFT). We identify the root cause of such compromise as their unawareness of future workload characteristics. In contrast, recent analysis on real-world traces has shown the high periodicity and long-term predictability of LLM serving workloads. We propose universal GPU workers to enable one-for-many GPU prewarming that loads models with knowledge of future workloads. Based on universal GPU workers, we design and build WarmServe, a multi-LLM serving system that (1) mitigates cluster-wide prewarming interference by adopting an evict-aware model placement strategy, (2) prepares universal GPU workers in advance by proactive prewarming, and (3) manages GPU memory with a zero-overhead memory switching mechanism. Evaluation under real-world datasets shows that WarmServe improves TTFT by up to 50.8$\times$ compared to the state-of-the-art autoscaling-based system, while being capable of serving up to 2.5$\times$ more requests compared to the GPU-sharing system.
- Abstract(参考訳): 共有GPUクラスタに複数のモデルをデプロイすることで、大規模言語モデル(LLM)サービスにおけるリソース効率の向上が期待できる。
既存のマルチLLMサービスシステムは、特にTTFT(Time-to-first-token)において、推論性能が悪く、GPUの利用を最適化する。
このような妥協の根本原因を,将来のワークロード特性の無意識として認識する。
対照的に、現実のトレースに関する最近の分析は、LLMサービスワークロードの高周期性と長期予測可能性を示している。
我々は、将来のワークロードに関する知識を積んだモデルを読み込む1対多のGPUプリワームを可能にするために、普遍的なGPUワーカーを提案する。
汎用GPUワーカをベースとして,(1)エビクト対応モデル配置戦略を採用することにより,クラスタ全体のプリワーム干渉を軽減するマルチLLMサービスシステムであるWarmServeを設計・構築し,(2)プロアクティブプリワームにより事前にユニバーサルGPUワーカを作成し,(3)ゼロオーバーヘッドメモリスイッチング機構でGPUメモリを管理する。
実世界のデータセットによる評価によると、WarmServeは最先端のオートスケーリングベースシステムと比較してTTFTを最大50.8$\times$で改善し、GPU共有システムと比較して2.5$\times$以上のリクエストを処理可能である。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Scalable GPU-Based Integrity Verification for Large Machine Learning Models [4.301162531343759]
我々は、CPUとGPUプラットフォーム間の整合性保護を標準化することで、分散機械学習を強化するセキュリティフレームワークを提案する。
提案手法は,GPUアクセラレータ上での大規模なMLモデル実行と直接的に整合性検証を行う。
私たちは、基盤となるCPUやGPUインフラストラクチャに関係なく、エンタープライズチームがデプロイできるハードウェアに依存しない基盤を提供します。
論文 参考訳(メタデータ) (2025-10-27T23:45:21Z) - CARMA: Collocation-Aware Resource Manager [5.998463702026698]
同じGPU上で複数のディープラーニング(DL)トレーニングタスクをコロケートすることは、利用率を改善するが、2つの大きなリスクをもたらす。
サーバスケールのためのタスクレベル・コロケーション対応リソース管理システムであるCARMAについて述べる。
論文 参考訳(メタデータ) (2025-08-26T14:29:34Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。