論文の概要: Building Heterogeneous Cloud System for Machine Learning Inference
- arxiv url: http://arxiv.org/abs/2210.05889v1
- Date: Wed, 12 Oct 2022 03:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:48:50.016573
- Title: Building Heterogeneous Cloud System for Machine Learning Inference
- Title(参考訳): 機械学習推論のための異種クラウドシステムの構築
- Authors: Baolin Li, Siddharth Samsi, Vijay Gadepally, Devesh Tiwari
- Abstract要約: KAIROSは、目標達成時のクエリスループットとコスト予算を最大化する、新しいランタイムフレームワークである。
産業レベルのディープラーニング(DL)モデルを用いて評価した結果,KAIROSは最適均一解のスループットを最大2倍に向上することがわかった。
- 参考スコア(独自算出の注目度): 10.462798429064277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online inference is becoming a key service product for many businesses,
deployed in cloud platforms to meet customer demands. Despite their
revenue-generation capability, these services need to operate under tight
Quality-of-Service (QoS) and cost budget constraints. This paper introduces
KAIROS, a novel runtime framework that maximizes the query throughput while
meeting QoS target and a cost budget. KAIROS designs and implements novel
techniques to build a pool of heterogeneous compute hardware without online
exploration overhead, and distribute inference queries optimally at runtime.
Our evaluation using industry-grade deep learning (DL) models shows that KAIROS
yields up to 2X the throughput of an optimal homogeneous solution, and
outperforms state-of-the-art schemes by up to 70\%, despite advantageous
implementations of the competing schemes to ignore their exploration overhead.
- Abstract(参考訳): オンライン推論は、顧客要求を満たすためにクラウドプラットフォームにデプロイされた、多くのビジネスにとって重要なサービス製品になりつつある。
収益生成能力にもかかわらず、これらのサービスはqos(quality-of-service)とコスト予算の制約の下で運用する必要があります。
本稿では,QoSターゲットとコスト予算を満たしながらクエリスループットを最大化する,新しいランタイムフレームワークであるKAIROSを紹介する。
KAIROSは、オンライン探索のオーバーヘッドを伴わずに不均一な計算ハードウェアのプールを構築し、実行時に推論クエリを最適に分散する新しい技術の設計と実装を行っている。
産業グレードのディープラーニング(DL)モデルを用いた評価では,KAIROSは最適均一解のスループットを最大2倍に向上し,探索オーバーヘッドを無視するために競合するスキームの有利な実装にもかかわらず,最先端のスキームを最大70%上回っている。
関連論文リスト
- A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud
Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。
我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文 参考訳(メタデータ) (2023-09-20T13:27:30Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An
Experimental Study [63.33663927442259]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - CILP: Co-simulation based Imitation Learner for Dynamic Resource
Provisioning in Cloud Computing Environments [13.864161788250856]
レイテンシクリティカルなタスクの主な課題は、積極的にプロビジョニングする将来のワークロード要求を予測することだ。
既存のAIベースのソリューションは、プロビジョニングのオーバーヘッド、異種VMコスト、クラウドシステムの品質(QoS)など、すべての重要な側面を公平に考慮しない傾向があります。
予測と最適化の2つのサブプロブレムとしてVMプロビジョニング問題を定式化するCILPと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-11T09:15:34Z) - Movement Penalized Bayesian Optimization with Application to Wind Energy
Systems [84.7485307269572]
文脈ベイズ最適化(CBO)は、与えられた側情報を逐次決定する強力なフレームワークである。
この設定では、学習者は各ラウンドでコンテキスト(天気条件など)を受け取り、アクション(タービンパラメータなど)を選択する必要がある。
標準的なアルゴリズムは、すべてのラウンドで意思決定を切り替えるコストを前提としませんが、多くの実用的なアプリケーションでは、このような変更に関連するコストが最小化されるべきです。
論文 参考訳(メタデータ) (2022-10-14T20:19:32Z) - PECCO: A Profit and Cost-oriented Computation Offloading Scheme in
Edge-Cloud Environment with Improved Moth-flame Optimisation [22.673319784715172]
エッジクラウド計算のオフロードは、クラウドセンタの負担を軽減するための、有望なソリューションである。
そこで本研究では,元のMoth-flame Optimiserの欠陥に対処する改良型Moth-flame optimiser PECCO-MFIを提案する。
論文 参考訳(メタデータ) (2022-08-09T23:26:42Z) - RIBBON: Cost-Effective and QoS-Aware Deep Learning Model Inference using
a Diverse Pool of Cloud Computing Instances [7.539635201319158]
RIBBONは、新しいディープラーニング推論サービスシステムである。
サービス品質(QoS)の目標とコスト効率の2つの競合目標を満たす。
論文 参考訳(メタデータ) (2022-07-23T06:45:14Z) - Serving and Optimizing Machine Learning Workflows on Heterogeneous
Infrastructures [9.178035808110124]
JellyBeanは、異種インフラストラクチャ上での機械学習推論の提供と最適化のためのフレームワークである。
JellyBeanは、視覚的質問応答のサービスコストを最大58%削減し、NVIDIA AI City Challengeからの車両追跡を最大36%削減する。
論文 参考訳(メタデータ) (2022-05-10T07:32:32Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - Optimal Pricing of Internet of Things: A Machine Learning Approach [105.4312167370975]
IoT(Internet of Things)は、センサーに埋め込まれたデバイスから大量のデータを生成する。
これまでの研究では、機械学習ベースのIoTサービスの最適な価格設定とバンドルの問題に対処していない。
当社は、データベンダがサービスプロバイダにデータを販売しているIoT市場モデルと、IoTサービスを顧客に提供しているサービスプロバイダで構成されています。
論文 参考訳(メタデータ) (2020-02-14T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。