論文の概要: ENOVA: Autoscaling towards Cost-effective and Stable Serverless LLM Serving
- arxiv url: http://arxiv.org/abs/2407.09486v1
- Date: Fri, 17 May 2024 09:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:38:25.594924
- Title: ENOVA: Autoscaling towards Cost-effective and Stable Serverless LLM Serving
- Title(参考訳): ENOVA: コスト効率と安定したサーバレスLLMの実現に向けた自動スケーリング
- Authors: Tao Huang, Pengfei Chen, Kyoka Gong, Jocky Hawk, Zachary Bright, Wenxin Xie, Kecheng Huang, Zhi Ji,
- Abstract要約: ENOVAは、サーバレスLLMサービスへのデプロイメント、監視、自動スケーリングサービスである。
実験の結果,ENOVAは他の最先端手法よりも著しく優れていた。
- 参考スコア(独自算出の注目度): 5.612334644490005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the increasing popularity of large language model (LLM) backend systems, it is common and necessary to deploy stable serverless serving of LLM on multi-GPU clusters with autoscaling. However, there exist challenges because the diversity and co-location of applications in multi-GPU clusters will lead to low service quality and GPU utilization. To address them, we build ENOVA, a deployment, monitoring and autoscaling service towards serverless LLM serving. ENOVA deconstructs the execution process of LLM service comprehensively, based on which ENOVA designs a configuration recommendation module for automatic deployment on any GPU clusters and a performance detection module for autoscaling. On top of them, ENOVA implements a deployment execution engine for multi-GPU cluster scheduling. The experiment results show that ENOVA significantly outperforms other state-of-the-art methods and is suitable for wide deployment in large online systems.
- Abstract(参考訳): 大規模言語モデル(LLM)バックエンドシステムの人気が高まっているため、自動スケーリングを備えたマルチGPUクラスタ上でLLMの安定したサーバレスサービスをデプロイすることは一般的であり、必要である。
しかし、マルチGPUクラスタにおけるアプリケーションの多様性とコロケーションが、サービス品質とGPU利用の低下につながるため、課題がある。
これに対処するため、サーバレスLLMサービスへのデプロイメント、監視、自動スケーリングサービスであるENOVAを構築しました。
ENOVAはLLMサービスの実行プロセスを包括的に分解し、ENOVAは任意のGPUクラスタに自動デプロイするための設定推奨モジュールと自動スケーリングのためのパフォーマンス検出モジュールを設計する。
その上に、ENOVAはマルチGPUクラスタスケジューリングのためのデプロイメント実行エンジンを実装している。
実験の結果,ENOVAは他の最先端手法よりも優れており,大規模オンラインシステムでの展開に適していることがわかった。
関連論文リスト
- Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity [27.87327662815485]
大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、デプロイにはコストがかかる。
我々は,所与のLLMサービスに対して,最小コストのGPUアロケーションを自動かつ効率的に導出するフレームワークであるM'elangeを紹介する。
M'elangeは、会話設定で最大77%、ドキュメントベースの設定で33%、混合設定で51%のデプロイメントコストを削減する。
論文 参考訳(メタデータ) (2024-04-22T18:56:18Z) - LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization [9.517540904818986]
本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提案する。
11の異なるクラスタでのプロダクション推論ワークロードの実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。
論文 参考訳(メタデータ) (2024-03-02T08:40:07Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a
Single GPU [4.198627205271621]
本稿では,変圧器をベースとした大規模言語モデル(LLM)を微調整するフレームワークであるASPENを紹介する。
ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。
実験によると、NVIDIA A100 80GB GPU上で複数のLLaMA-7Bモデルをトレーニングする場合、ASPENはGPUメモリの53%を節約している。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Fast Distributed Inference Serving for Large Language Models [12.682341873843882]
大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z) - VEGA: Towards an End-to-End Configurable AutoML Pipeline [101.07003005736719]
VEGAは効率よく包括的なAutoMLフレームワークで、複数のハードウェアプラットフォームに互換性があり、最適化されている。
VEGAは既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見する。
論文 参考訳(メタデータ) (2020-11-03T06:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。