論文の概要: SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
- arxiv url: http://arxiv.org/abs/2411.01438v1
- Date: Sun, 03 Nov 2024 05:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:42.312375
- Title: SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
- Title(参考訳): SkyServe: スポットインスタンスでリージョンとクラウドをまたいだAIモデルの実現
- Authors: Ziming Mao, Tian Xia, Zhanghao Wu, Wei-Lin Chiang, Tyler Griggs, Romil Bhardwaj, Zongheng Yang, Scott Shenker, Ion Stoica,
- Abstract要約: SkyServeは、リージョンとクラウドをまたいだスポットとオンデマンドのレプリカを混ぜて、AIモデルを効率的に提供するシステムです。
SkyServeは、オンデマンドレプリカを使用する場合と比較して、高可用性を実現する一方で、コストを最大44%削減する。
- 参考スコア(独自算出の注目度): 21.863416744607544
- License:
- Abstract: Recent years have witnessed an explosive growth of AI models. The high cost of hosting AI services on GPUs and their demanding service requirements, make it timely and challenging to lower service costs and guarantee service quality. While spot instances have long been offered with a large discount, spot preemptions have discouraged users from using them to host model replicas when serving AI models. To address this, we introduce SkyServe, a system that efficiently serves AI models over a mixture of spot and on-demand replicas across regions and clouds. SkyServe intelligently spreads spot replicas across different failure domains (e.g., regions or clouds) to improve availability and reduce correlated preemptions, overprovisions cheap spot replicas than required as a safeguard against possible preemptions, and dynamically falls back to on-demand replicas when spot replicas become unavailable. We compare SkyServe with both research and production systems on real AI workloads: SkyServe reduces cost by up to 44% while achieving high resource availability compared to using on-demand replicas. Additionally, SkyServe improves P50, P90, and P99 latency by up to 2.6x, 3.1x, 2.7x compared to other research and production systems.
- Abstract(参考訳): 近年、AIモデルの爆発的な成長が見られた。
GPU上でAIサービスをホスティングするコストとサービス要件の要求が高いため、サービスコストの削減とサービス品質の保証がタイムリーかつ困難になる。
スポットインスタンスは長い間大きな割引で提供されてきたが、スポットプリエンプションにより、AIモデルを提供する際にモデルレプリカをホストするために使用できない。
この問題に対処するため、SkyServeは、リージョンとクラウドをまたいだスポットとオンデマンドのレプリカを混合して、AIモデルを効率的に提供するシステムである。
SkyServeは、さまざまな障害ドメイン(リージョンやクラウドなど)にスポットレプリカをインテリジェントに分散して、可用性を改善し、関連するプリエンプションを削減し、プリエンプションの可能性に対する保護として必要以上に安価なスポットレプリカをオーバープロビジョンし、スポットレプリカが使用不能になった場合、動的にオンデマンドレプリカにフォールバックする。
SkyServeは、オンデマンドレプリカを使用する場合と比較して、高可用性を実現しつつ、コストを最大44%削減します。
さらに、SkyServeはP50、P90、P99のレイテンシを他の研究や生産システムと比較して2.6倍、3.1倍、2.7倍改善している。
関連論文リスト
- Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Computing in the Era of Large Generative Models: From Cloud-Native to
AI-Native [46.7766555589807]
クラウドネイティブ技術と高度な機械学習推論の両方のパワーを利用するAIネイティブコンピューティングパラダイムについて説明する。
これらの共同作業は、コスト・オブ・グッド・ソード(COGS)を最適化し、資源のアクセシビリティを向上させることを目的としている。
論文 参考訳(メタデータ) (2024-01-17T20:34:11Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z) - Serverless Model Serving for Data Science [23.05534539170047]
データサイエンスアプリケーションのための主流モデルとしてのサーバーレスの実現可能性について検討する。
サーバーレスは、コストとパフォーマンスに関して多くのクラウドベースの代替手段を上回っています。
スケーラブルで費用対効果の高いモデルサービスにサーバレスを使用する方法について、データサイエンティストにいくつかの推奨事項を提示します。
論文 参考訳(メタデータ) (2021-03-04T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。