論文の概要: Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud
- arxiv url: http://arxiv.org/abs/2106.05345v1
- Date: Wed, 9 Jun 2021 19:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:08:41.433883
- Title: Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud
- Title(参考訳): cocktail: パブリッククラウドでの最適化モデル提供にアンサンブル学習を活用する
- Authors: Jashwant Raj Gunasekaran, Cyan Subhra Mishra, Prashanth Thinakaran,
Mahmut Taylan Kandemir, Chita R. Das
- Abstract要約: コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
- 参考スコア(独自算出の注目度): 9.149566952446058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a growing demand for adopting ML models for a varietyof application
services, it is vital that the frameworks servingthese models are capable of
delivering highly accurate predic-tions with minimal latency along with reduced
deploymentcosts in a public cloud environment. Despite high latency,prior works
in this domain are crucially limited by the accu-racy offered by individual
models. Intuitively, model ensem-bling can address the accuracy gap by
intelligently combiningdifferent models in parallel. However, selecting the
appro-priate models dynamically at runtime to meet the desiredaccuracy with low
latency at minimal deployment cost is anontrivial problem. Towards this, we
proposeCocktail, a costeffective ensembling-based model serving
framework.Cock-tailcomprises of two key components: (i) a dynamic
modelselection framework, which reduces the number of modelsin the ensemble,
while satisfying the accuracy and latencyrequirements; (ii) an adaptive
resource management (RM)framework that employs a distributed proactive
autoscalingpolicy combined with importance sampling, to efficiently allo-cate
resources for the models. The RM framework leveragestransient virtual machine
(VM) instances to reduce the de-ployment cost in a public cloud. A prototype
implementationofCocktailon the AWS EC2 platform and exhaustive evalua-tions
using a variety of workloads demonstrate thatCocktailcan reduce deployment cost
by 1.45x, while providing 2xreduction in latency and satisfying the target
accuracy for upto 96% of the requests, when compared to
state-of-the-artmodel-serving frameworks.
- Abstract(参考訳): さまざまなアプリケーションサービスにMLモデルを採用する必要性が高まっているため、これらのモデルが提供するフレームワークは、パブリッククラウド環境におけるデプロイメントコストの削減とともに、最小のレイテンシで、高精度な予測オプションを提供することができることが不可欠である。
レイテンシが高いにもかかわらず、この領域のプリンシパルな作業は、個々のモデルが提供するアククレーシーによって著しく制限される。
直感的には、モデルエンセムブリングは、微分モデルを並列にインテリジェントに組み合わせることで、精度ギャップに対処することができる。
しかし、最小限のデプロイメントコストで低レイテンシで所望の精度を満たすために実行時に動的にappro-priateモデルを選択することは、簡単な問題です。
そこで本研究では,コスト効率の高いアンサンブルモデル提供フレームワークであるCocktailを提案する。Cocktailは,(i)精度と遅延要求を満足しつつ,アンサンブル内のモデル数を削減する動的モデル選択フレームワーク,(ii)分散プロアクティブオートスケーリングポリティクスと重要サンプリングを組み合わせた適応型リソース管理(RM)フレームワークの2つの主要なコンポーネントで構成され,モデルのリソースを効率的にアロケートする。
rmフレームワークはtransient virtual machine (vm)インスタンスを活用して、パブリッククラウドでのデプロイメントコストを削減する。
aws ec2プラットフォームとさまざまなワークロードを使用した徹底したevalua-tionの実装では、cocktailがレイテンシの2倍削減と最大96%のリクエストのターゲット精度を満足しながら、デプロイコストを1.45倍削減できることが示されている。
関連論文リスト
- Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。
具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。
動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文 参考訳(メタデータ) (2024-10-16T02:06:27Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - ECLM: Efficient Edge-Cloud Collaborative Learning with Continuous
Environment Adaptation [47.35179593006409]
動的エッジ環境に対する高速モデル適応のためのエッジクラウド協調学習フレームワークECLMを提案する。
その結果,ECLM はモデルの性能(例えば 18.89% の精度向上)と資源効率(例えば 7.12 倍の通信コスト削減)を,動的エッジ環境への適応において著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-11-18T14:10:09Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Scavenger: A Cloud Service for Optimizing Cost and Performance of ML
Training [1.047192732651018]
我々は,クラウド上での分散MLモデルトレーニングのトレーニング時間とコストを最適化するための,原則的かつ実用的な手法を開発した。
従来の並列スケーリングの概念とSGDノイズに対する新たな洞察を組み合わせることで,クラスタ構成の異なる時間とコストを5%の誤差で正確に推定する。
論文 参考訳(メタデータ) (2023-03-12T13:42:39Z) - Complement Sparsification: Low-Overhead Model Pruning for Federated
Learning [2.0428960719376166]
フェデレートラーニング(Federated Learning, FL)は、プライバシに保護された分散ディープラーニングパラダイムであり、かなりのコミュニケーションと計算作業を伴う。
既存のモデルプルーニング/スパーシフィケーションソリューションは、サーバとクライアント間の双方向通信のオーバーヘッドが低いという要求を満たすことができません。
我々は,サーバとクライアントで行う補完的かつ協調的なプルーニングを通じて,これらの要求を満たすプルーニング機構であるComplement Sparsification (CS)を提案する。
論文 参考訳(メタデータ) (2023-03-10T23:07:02Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。