論文の概要: SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
- arxiv url: http://arxiv.org/abs/2411.01438v2
- Date: Mon, 03 Mar 2025 22:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:09:40.384021
- Title: SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
- Title(参考訳): SkyServe: スポットインスタンスでリージョンとクラウドをまたいだAIモデルの実現
- Authors: Ziming Mao, Tian Xia, Zhanghao Wu, Wei-Lin Chiang, Tyler Griggs, Romil Bhardwaj, Zongheng Yang, Scott Shenker, Ion Stoica,
- Abstract要約: SpotHedgeは、さまざまな障害ドメインにまたがるスポットレプリカを活用して、可用性、低コスト、サービス品質を保証するポリシである。
SkyServeはSpotHedgeを利用して、スポットとオンデマンドのレプリカを混ぜてAIモデルを効率的に提供するシステムです。
- 参考スコア(独自算出の注目度): 21.863416744607544
- License:
- Abstract: Recent years have witnessed an explosive growth of AI models. The high cost of hosting AI services on GPUs and their demanding service requirements, make it timely and challenging to lower service costs and guarantee service quality. While spot instances have long been offered with a large discount, spot preemptions have discouraged users from using them to host model replicas when serving AI models. To address this, we propose a simple yet efficient policy, SpotHedge, that leverages spot replicas across different failure domains (e.g., regions and clouds) to ensure availability, lower costs, and high service quality. SpotHedge intelligently spreads spot replicas across different regions and clouds to improve availability and reduce correlated preemptions, overprovisions cheap spot replicas than required as a safeguard against possible preemptions, and dynamically falls back to on-demand replicas when spot replicas become unavailable. We built SkyServe, a system leveraging SpotHedge to efficiently serve AI models over a mixture of spot and on-demand replicas across regions and clouds. We compared SkyServe with both research and production systems on real AI workloads: SkyServe reduces cost by 43% on average while achieving high resource availability compared to using on-demand replicas. Additionally, SkyServe improves P50, P90, and P99 latency by 2.3$\times$, 2.1$\times$, 2.1$\times$ on average compared to other research and production systems.
- Abstract(参考訳): 近年、AIモデルの爆発的な成長が見られた。
GPU上でAIサービスをホスティングするコストとサービス要件の要求が高いため、サービスコストの削減とサービス品質の保証がタイムリーかつ困難になる。
スポットインスタンスは長い間大きな割引で提供されてきたが、スポットプリエンプションにより、AIモデルを提供する際にモデルレプリカをホストするために使用できない。
これを解決するために,さまざまな障害ドメイン(リージョンやクラウドなど)にまたがるスポットレプリカを活用して,可用性,コスト削減,サービス品質の向上を実現する,シンプルで効率的なポリシであるSpotHedgeを提案する。
SpotHedgeは、さまざまなリージョンやクラウドにスポットレプリカをインテリジェントに分散して、可用性を改善し、関連するプリエンプションを低減し、プリエンプションの可能性に対する保護として必要以上に安価なスポットレプリカをオーバープロビジョンし、スポットレプリカが使用不能になった場合、動的にオンデマンドレプリカにフォールバックする。
SkyServeは、SpotHedgeを利用して、リージョンとクラウドをまたいだスポットとオンデマンドのレプリカを混ぜて、AIモデルを効率的に提供するシステムです。
SkyServeは、オンデマンドレプリカを使用する場合と比較して、高可用性を実現しつつ、平均して43%のコスト削減を実現しています。
さらに、SkyServeはP50、P90、P99のレイテンシを2.3$\times$、2.1$\times$、2.1$\times$で改善している。
関連論文リスト
- FogROS2-FT: Fault Tolerant Cloud Robotics [36.43427996196207]
本稿では,クラウドロボティクスの問題を軽減するためにFogROS2-FT(Fault Tolerant)を提案する。
FogROS2-FTは、独立したステートレスロボットサービスを複製し、これらのレプリカにリクエストをルーティングし、最初の応答を指示する。
同じハードウェア仕様で実行されるFogROS2-FTは、最大2.2倍のコスト削減と、99 Percentile (P99) のロングテールレイテンシの5.53倍のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-12-06T20:38:46Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Computing in the Era of Large Generative Models: From Cloud-Native to
AI-Native [46.7766555589807]
クラウドネイティブ技術と高度な機械学習推論の両方のパワーを利用するAIネイティブコンピューティングパラダイムについて説明する。
これらの共同作業は、コスト・オブ・グッド・ソード(COGS)を最適化し、資源のアクセシビリティを向上させることを目的としている。
論文 参考訳(メタデータ) (2024-01-17T20:34:11Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z) - Serverless Model Serving for Data Science [23.05534539170047]
データサイエンスアプリケーションのための主流モデルとしてのサーバーレスの実現可能性について検討する。
サーバーレスは、コストとパフォーマンスに関して多くのクラウドベースの代替手段を上回っています。
スケーラブルで費用対効果の高いモデルサービスにサーバレスを使用する方法について、データサイエンティストにいくつかの推奨事項を提示します。
論文 参考訳(メタデータ) (2021-03-04T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。