論文の概要: Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
- arxiv url: http://arxiv.org/abs/2404.14527v1
- Date: Mon, 22 Apr 2024 18:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 17:57:44.648560
- Title: Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
- Title(参考訳): Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル
- Authors: Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica,
- Abstract要約: 大規模言語モデル(LLM)は多くのオンラインサービスに統合されている。
LLMのデプロイにおける大きな課題は、高価なGPUインスタンスの使用が主な理由として、そのコストが高いことだ。
我々は、GPUとLLMサービス仕様の多様性をナビゲートするフレームワークであるM'elangeを紹介する。
M'elangeは、単一のGPUタイプのみを使用する場合と比較して、デプロイメントコストを最大77%削減できる。
- 参考スコア(独自算出の注目度): 27.87327662815485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly integrated into many online services. However, a major challenge in deploying LLMs is their high cost, due primarily to the use of expensive GPU instances. To address this problem, we find that the significant heterogeneity of GPU types presents an opportunity to increase GPU cost efficiency and reduce deployment costs. The broad and growing market of GPUs creates a diverse option space with varying costs and hardware specifications. Within this space, we show that there is not a linear relationship between GPU cost and performance, and identify three key LLM service characteristics that significantly affect which GPU type is the most cost effective: model request size, request rate, and latency service-level objective (SLO). We then present M\'elange, a framework for navigating the diversity of GPUs and LLM service specifications to derive the most cost-efficient set of GPUs for a given LLM service. We frame the task of GPU selection as a cost-aware bin-packing problem, where GPUs are bins with a capacity and cost, and items are request slices defined by a request size and rate. Upon solution, M\'elange derives the minimal-cost GPU allocation that adheres to a configurable latency SLO. Our evaluations across both real-world and synthetic datasets demonstrate that M\'elange can reduce deployment costs by up to 77% as compared to utilizing only a single GPU type, highlighting the importance of making heterogeneity-aware GPU provisioning decisions for LLM serving. Our source code is publicly available at https://github.com/tyler-griggs/melange-release.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのオンラインサービスに統合されている。
しかし、LLMのデプロイにおける大きな課題は、主に高価なGPUインスタンスを使用するため、そのコストが高いことである。
この問題に対処するために、GPUタイプの大きな異種性は、GPUコストの効率を高め、デプロイメントコストを削減する機会となる。
GPUの広範かつ拡大する市場は、さまざまなコストとハードウェア仕様を備えた多様なオプションスペースを生み出している。
この領域では,GPUのコストと性能には線形的な関係はなく,モデル要求サイズ,要求レート,遅延サービスレベル目標(SLO)の3つの主要なLCMサービス特性が最もコスト効率のよいGPUタイプに大きく影響していることが示されている。
次に、あるLLMサービスに対して最もコスト効率のよいGPUセットを導き出すために、GPUとLLMサービスの仕様の多様性をナビゲートするフレームワークであるM\'elangeを紹介します。
我々はGPU選択のタスクを、GPUがキャパシティとコストを持つビンであり、アイテムは要求サイズとレートで定義された要求スライスである、コスト対応のビンパッキング問題として捉えている。
解決策として、M\'elangeは設定可能なレイテンシSLOに準拠した最小コストのGPUアロケーションを導出する。
実世界のデータセットと合成データセットの両方で評価した結果、M\'elangeは単一のGPUタイプのみを活用するよりも、デプロイメントコストを最大77%削減できることがわかった。
ソースコードはhttps://github.com/tyler-griggs/melange-release.comで公開されています。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。
予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。
既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文 参考訳(メタデータ) (2024-10-03T12:19:06Z) - ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。