Fugu-MT 論文翻訳(概要): Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity

論文の概要: Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity

arxiv url: http://arxiv.org/abs/2404.14527v2
Date: Wed, 26 Jun 2024 23:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 19:06:57.387868
Title: Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
Title（参考訳）: Mélange:GPUヘテロジニティの爆発によって実現されるコスト効率のよい大規模言語モデル
Authors: Tyler Griggs, Xiaoxuan Liu, Jiaxiang Yu, Doyoung Kim, Wei-Lin Chiang, Alvin Cheung, Ion Stoica,
Abstract要約: 大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、デプロイにはコストがかかる。我々は,所与のLLMサービスに対して,最小コストのGPUアロケーションを自動かつ効率的に導出するフレームワークであるM'elangeを紹介する。 M'elangeは、会話設定で最大77%、ドキュメントベースの設定で33%、混合設定で51%のデプロイメントコストを削減する。
参考スコア（独自算出の注目度）: 27.87327662815485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly integrated into many online services, yet they remain cost-prohibitive to deploy due to the requirement of expensive GPU instances. Prior work has addressed the high cost of LLM serving by improving the inference engine, but less attention has been given to selecting the most cost-efficient GPU type(s) for a specific LLM service. There is a large and growing landscape of GPU types and, within these options, higher cost does not always lead to increased performance. Instead, through a comprehensive investigation, we find that three key LLM service characteristics (request size, request rate, SLO) strongly influence GPU cost efficiency, and differing GPU types are most cost efficient for differing LLM service settings. As a result, the most cost-efficient allocation for a given service is typically a mix of heterogeneous GPU types. Based on this analysis, we introduce M\'elange, a GPU allocation framework that navigates these diverse LLM service characteristics and heterogeneous GPU option space to automatically and efficiently derive the minimal-cost GPU allocation for a given LLM service. We formulate the GPU allocation task as a cost-aware bin packing problem where GPUs are bins and items are slices of the service workload. Our formulation's constraints account for a service's unique characteristics, allowing M\'elange to be flexible to support diverse service settings and heterogeneity-aware to adapt the GPU allocation to a specific service. Compared to using only a single GPU type, M\'elange reduces deployment costs by up to 77\% in conversational settings, 33\% in document-based settings, and 51\% in a mixed setting.
Abstract（参考訳）: 大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、高価なGPUインスタンスを必要とするため、デプロイにはコストがかかる。これまでは推論エンジンの改善によってLLMの高コスト化に取り組んできたが、特定のLLMサービスに対して最もコスト効率のよいGPUタイプを選択することにはあまり注意が向けられていない。 GPUタイプの大規模で成長する状況があり、これらのオプションでは、高コストがパフォーマンス向上につながるとは限らない。その代わりに、包括的な調査により、3つの主要なLLMサービス特性(要求サイズ、要求率、SLO)がGPUコスト効率に強く影響を与え、異なるGPUタイプが異なるLLMサービス設定に対して最もコスト効率がよいことがわかった。結果として、与えられたサービスの最もコスト効率のよい割り当ては、通常、異種GPUタイプの混合である。この分析に基づいて、これらの多様なLLMサービス特性とヘテロジニアスGPUオプション空間をナビゲートし、与えられたLLMサービスの最小コストGPUアロケーションを自動かつ効率的に導出するGPUアロケーションフレームワークであるM\'elangeを紹介する。我々は、GPU割り当てタスクを、GPUがビンであり、アイテムがサービスのワークロードのスライスである、コスト対応のビンパッキング問題として定式化する。私たちの定式化の制約は、サービスのユニークな特性を考慮し、M\'elangeは、さまざまなサービス設定と、GPUアロケーションを特定のサービスに適応するためのヘテロジニティアウェアをサポートするためにフレキシブルになる。単一のGPUタイプのみを使用する場合と比較して、M\'elangeは、会話設定で77\%、文書ベースの設定で33\%、混合設定で51\%までのデプロイメントコストを削減する。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving [28.19296680865433]
大規模ワークロード(LLM)の実現は、特に言語モデルをホストするプロバイダにとって、コストがかかる。モデルとその共有による長いアイドル期間の長期的人気は、このタスクに新たな機会と課題を生み出します。本稿では、GPU共有の可能性を解き放ち、効率とSLO達成を両立させるシステムであるPrismを提案する。
論文参考訳（メタデータ） (2025-05-06T23:38:33Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文参考訳（メタデータ） (2024-10-03T12:19:06Z)
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文参考訳（メタデータ） (2024-10-02T04:12:13Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文参考訳（メタデータ） (2023-06-16T11:37:15Z)
An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文参考訳（メタデータ） (2022-09-13T14:13:06Z)
PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文参考訳（メタデータ） (2022-02-27T23:30:55Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。