Fugu-MT 論文翻訳(概要): Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity

論文の概要: Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity

arxiv url: http://arxiv.org/abs/2404.14527v1
Date: Mon, 22 Apr 2024 18:56:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 17:57:44.648560
Title: Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
Title（参考訳）: Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル
Authors: Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica,
Abstract要約: 大規模言語モデル(LLM)は多くのオンラインサービスに統合されている。 LLMのデプロイにおける大きな課題は、高価なGPUインスタンスの使用が主な理由として、そのコストが高いことだ。我々は、GPUとLLMサービス仕様の多様性をナビゲートするフレームワークであるM'elangeを紹介する。 M'elangeは、単一のGPUタイプのみを使用する場合と比較して、デプロイメントコストを最大77%削減できる。
参考スコア（独自算出の注目度）: 27.87327662815485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly integrated into many online services. However, a major challenge in deploying LLMs is their high cost, due primarily to the use of expensive GPU instances. To address this problem, we find that the significant heterogeneity of GPU types presents an opportunity to increase GPU cost efficiency and reduce deployment costs. The broad and growing market of GPUs creates a diverse option space with varying costs and hardware specifications. Within this space, we show that there is not a linear relationship between GPU cost and performance, and identify three key LLM service characteristics that significantly affect which GPU type is the most cost effective: model request size, request rate, and latency service-level objective (SLO). We then present M\'elange, a framework for navigating the diversity of GPUs and LLM service specifications to derive the most cost-efficient set of GPUs for a given LLM service. We frame the task of GPU selection as a cost-aware bin-packing problem, where GPUs are bins with a capacity and cost, and items are request slices defined by a request size and rate. Upon solution, M\'elange derives the minimal-cost GPU allocation that adheres to a configurable latency SLO. Our evaluations across both real-world and synthetic datasets demonstrate that M\'elange can reduce deployment costs by up to 77% as compared to utilizing only a single GPU type, highlighting the importance of making heterogeneity-aware GPU provisioning decisions for LLM serving. Our source code is publicly available at https://github.com/tyler-griggs/melange-release.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのオンラインサービスに統合されている。しかし、LLMのデプロイにおける大きな課題は、主に高価なGPUインスタンスを使用するため、そのコストが高いことである。この問題に対処するために、GPUタイプの大きな異種性は、GPUコストの効率を高め、デプロイメントコストを削減する機会となる。 GPUの広範かつ拡大する市場は、さまざまなコストとハードウェア仕様を備えた多様なオプションスペースを生み出している。この領域では,GPUのコストと性能には線形的な関係はなく,モデル要求サイズ,要求レート,遅延サービスレベル目標(SLO)の3つの主要なLCMサービス特性が最もコスト効率のよいGPUタイプに大きく影響していることが示されている。次に、あるLLMサービスに対して最もコスト効率のよいGPUセットを導き出すために、GPUとLLMサービスの仕様の多様性をナビゲートするフレームワークであるM\'elangeを紹介します。我々はGPU選択のタスクを、GPUがキャパシティとコストを持つビンであり、アイテムは要求サイズとレートで定義された要求スライスである、コスト対応のビンパッキング問題として捉えている。解決策として、M\'elangeは設定可能なレイテンシSLOに準拠した最小コストのGPUアロケーションを導出する。実世界のデータセットと合成データセットの両方で評価した結果、M\'elangeは単一のGPUタイプのみを活用するよりも、デプロイメントコストを最大77%削減できることがわかった。ソースコードはhttps://github.com/tyler-griggs/melange-release.comで公開されています。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving [28.19296680865433]
大規模ワークロード(LLM)の実現は、特に言語モデルをホストするプロバイダにとって、コストがかかる。モデルとその共有による長いアイドル期間の長期的人気は、このタスクに新たな機会と課題を生み出します。本稿では、GPU共有の可能性を解き放ち、効率とSLO達成を両立させるシステムであるPrismを提案する。
論文参考訳（メタデータ） (2025-05-06T23:38:33Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文参考訳（メタデータ） (2024-10-03T12:19:06Z)
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文参考訳（メタデータ） (2024-10-02T04:12:13Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文参考訳（メタデータ） (2023-06-16T11:37:15Z)
An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文参考訳（メタデータ） (2022-09-13T14:13:06Z)
PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文参考訳（メタデータ） (2022-02-27T23:30:55Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。