Fugu-MT 論文翻訳(概要): Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

論文の概要: Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

arxiv url: http://arxiv.org/abs/2505.04021v2
Date: Mon, 12 May 2025 18:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 12:30:10.413188
Title: Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving
Title（参考訳）: Prism: 費用効率の良いマルチLLMサービングのためのGPU共有の開放
Authors: Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng,
Abstract要約: 大規模ワークロード(LLM)の実現は、特に言語モデルをホストするプロバイダにとって、コストがかかる。モデルとその共有による長いアイドル期間の長期的人気は、このタスクに新たな機会と課題を生み出します。本稿では、GPU共有の可能性を解き放ち、効率とSLO達成を両立させるシステムであるPrismを提案する。
参考スコア（独自算出の注目度）: 28.19296680865433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Serving large language models (LLMs) is expensive, especially for providers hosting many models, making cost reduction essential. The unique workload patterns of serving multiple LLMs (i.e., multi-LLM serving) create new opportunities and challenges for this task. The long-tail popularity of models and their long idle periods present opportunities to improve utilization through GPU sharing. However, existing GPU sharing systems lack the ability to adjust their resource allocation and sharing policies at runtime, making them ineffective at meeting latency service-level objectives (SLOs) under rapidly fluctuating workloads. This paper presents Prism, a multi-LLM serving system that unleashes the full potential of GPU sharing to achieve both cost efficiency and SLO attainment. At its core, Prism tackles a key limitation of existing systems$\unicode{x2014}$the lack of $\textit{cross-model memory coordination}$, which is essential for flexibly sharing GPU memory across models under dynamic workloads. Prism achieves this with two key designs. First, it supports on-demand memory allocation by dynamically mapping physical to virtual memory pages, allowing flexible memory redistribution among models that space- and time-share a GPU. Second, it improves memory efficiency through a two-level scheduling policy that dynamically adjusts sharing strategies based on models' runtime demands. Evaluations on real-world traces show that Prism achieves more than $2\times$ cost savings and $3.3\times$ SLO attainment compared to state-of-the-art systems.
Abstract（参考訳）: 大規模言語モデル(LLM)の実現にはコストがかかり、特に多くのモデルをホストするプロバイダにとってコスト削減が不可欠である。複数のLLM(マルチLLMサービス)を提供するというユニークなワークロードパターンは、このタスクに新たな機会と課題を生み出します。モデルの長期的人気と長いアイドル期間は、GPU共有による利用改善の機会を提供する。しかし、既存のGPU共有システムは、実行時にリソースの割り当てと共有ポリシを調整する能力に欠けており、急速に変動するワークロードの下で、レイテンシーサービスレベル目標(SLO)を満たすのに効果がない。本稿では、コスト効率とSLO達成の両方を達成するために、GPU共有の可能性を最大限に活用するマルチLLMサービスシステムであるPrismを提案する。 Prismの中核にあるのは、既存のシステムの重要な制限である$\unicode{x2014}$に、$\textit{cross-model memory coordinate}$がないことだ。 Prismは2つの重要な設計でこれを達成している。まず、物理を仮想メモリページに動的にマッピングすることで、オンデマンドのメモリ割り当てをサポートし、空間と時間を共有するモデル間でフレキシブルなメモリ再分配を可能にする。第二に、モデルの実行時要求に基づいて共有戦略を動的に調整する2段階のスケジューリングポリシーにより、メモリ効率を改善する。現実世界のトレースに関する評価によると、Prismは最先端のシステムと比較して2ドル以上のコスト削減と3.3ドル以上のSLO達成を実現している。

関連論文リスト

Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity [27.87327662815485]
大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、デプロイにはコストがかかる。我々は,所与のLLMサービスに対して,最小コストのGPUアロケーションを自動かつ効率的に導出するフレームワークであるM'elangeを紹介する。 M'elangeは、会話設定で最大77%、ドキュメントベースの設定で33%、混合設定で51%のデプロイメントコストを削減する。
論文参考訳（メタデータ） (2024-04-22T18:56:18Z)
JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-17T23:02:04Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文参考訳（メタデータ） (2021-10-16T18:13:57Z)
Multi-model Machine Learning Inference Serving with GPU Spatial Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-01T04:46:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。