Fugu-MT 論文翻訳(概要): SkyServe: Serving AI Models across Regions and Clouds with Spot Instances

論文の概要: SkyServe: Serving AI Models across Regions and Clouds with Spot Instances

arxiv url: http://arxiv.org/abs/2411.01438v1
Date: Sun, 03 Nov 2024 05:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.768679
Title: SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
Title（参考訳）: SkyServe: スポットインスタンスでリージョンとクラウドをまたいだAIモデルの実現
Authors: Ziming Mao, Tian Xia, Zhanghao Wu, Wei-Lin Chiang, Tyler Griggs, Romil Bhardwaj, Zongheng Yang, Scott Shenker, Ion Stoica,
Abstract要約: SkyServeは、リージョンとクラウドをまたいだスポットとオンデマンドのレプリカを混ぜて、AIモデルを効率的に提供するシステムです。 SkyServeは、オンデマンドレプリカを使用する場合と比較して、高可用性を実現する一方で、コストを最大44%削減する。
参考スコア（独自算出の注目度）: 21.863416744607544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have witnessed an explosive growth of AI models. The high cost of hosting AI services on GPUs and their demanding service requirements, make it timely and challenging to lower service costs and guarantee service quality. While spot instances have long been offered with a large discount, spot preemptions have discouraged users from using them to host model replicas when serving AI models. To address this, we introduce SkyServe, a system that efficiently serves AI models over a mixture of spot and on-demand replicas across regions and clouds. SkyServe intelligently spreads spot replicas across different failure domains (e.g., regions or clouds) to improve availability and reduce correlated preemptions, overprovisions cheap spot replicas than required as a safeguard against possible preemptions, and dynamically falls back to on-demand replicas when spot replicas become unavailable. We compare SkyServe with both research and production systems on real AI workloads: SkyServe reduces cost by up to 44% while achieving high resource availability compared to using on-demand replicas. Additionally, SkyServe improves P50, P90, and P99 latency by up to 2.6x, 3.1x, 2.7x compared to other research and production systems.
Abstract（参考訳）: 近年、AIモデルの爆発的な成長が見られた。 GPU上でAIサービスをホスティングするコストとサービス要件の要求が高いため、サービスコストの削減とサービス品質の保証がタイムリーかつ困難になる。スポットインスタンスは長い間大きな割引で提供されてきたが、スポットプリエンプションにより、AIモデルを提供する際にモデルレプリカをホストするために使用できない。この問題に対処するため、SkyServeは、リージョンとクラウドをまたいだスポットとオンデマンドのレプリカを混合して、AIモデルを効率的に提供するシステムである。 SkyServeは、さまざまな障害ドメイン(リージョンやクラウドなど)にスポットレプリカをインテリジェントに分散して、可用性を改善し、関連するプリエンプションを削減し、プリエンプションの可能性に対する保護として必要以上に安価なスポットレプリカをオーバープロビジョンし、スポットレプリカが使用不能になった場合、動的にオンデマンドレプリカにフォールバックする。 SkyServeは、オンデマンドレプリカを使用する場合と比較して、高可用性を実現しつつ、コストを最大44%削減します。さらに、SkyServeはP50、P90、P99のレイテンシを他の研究や生産システムと比較して2.6倍、3.1倍、2.7倍改善している。

関連論文リスト

Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits [11.398891065175686]
大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。 LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-27T14:55:16Z)
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文参考訳（メタデータ） (2024-04-22T23:06:42Z)
Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。 CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文参考訳（メタデータ） (2024-02-27T08:47:19Z)
Computing in the Era of Large Generative Models: From Cloud-Native to AI-Native [46.7766555589807]
クラウドネイティブ技術と高度な機械学習推論の両方のパワーを利用するAIネイティブコンピューティングパラダイムについて説明する。これらの共同作業は、コスト・オブ・グッド・ソード(COGS)を最適化し、資源のアクセシビリティを向上させることを目的としている。
論文参考訳（メタデータ） (2024-01-17T20:34:11Z)
Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文参考訳（メタデータ） (2023-11-28T15:09:36Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文参考訳（メタデータ） (2023-06-05T18:17:37Z)
Managing Cold-start in The Serverless Cloud with Temporal Convolutional Networks [0.0]
サーバレスクラウドは革新的なクラウドサービスモデルであり、多くのクラウド管理業務から顧客を解放します。サーバーレスクラウドのパフォーマンスに対する大きな脅威はコールドスタートであり、顧客の要求に応えるために必要なクラウドリソースをプロビジョニングするとき、サービスプロバイダや/または顧客に受け入れられないコストが発生する。本稿では、サーバーレスクラウドスタックのインフラストラクチャおよびファンクションレベルにおけるコールドスタート問題に対処する、新しい低結合・高結合アンサンブルポリシーを提案する。
論文参考訳（メタデータ） (2023-04-01T21:54:22Z)
RIBBON: Cost-Effective and QoS-Aware Deep Learning Model Inference using a Diverse Pool of Cloud Computing Instances [7.539635201319158]
RIBBONは、新しいディープラーニング推論サービスシステムである。サービス品質(QoS)の目標とコスト効率の2つの競合目標を満たす。
論文参考訳（メタデータ） (2022-07-23T06:45:14Z)
Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。 AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文参考訳（メタデータ） (2021-06-09T19:23:58Z)
Serverless Model Serving for Data Science [23.05534539170047]
データサイエンスアプリケーションのための主流モデルとしてのサーバーレスの実現可能性について検討する。サーバーレスは、コストとパフォーマンスに関して多くのクラウドベースの代替手段を上回っています。スケーラブルで費用対効果の高いモデルサービスにサーバレスを使用する方法について、データサイエンティストにいくつかの推奨事項を提示します。
論文参考訳（メタデータ） (2021-03-04T11:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。