論文の概要: KAIROS: Building Cost-Efficient Machine Learning Inference Systems with
Heterogeneous Cloud Resources
- arxiv url: http://arxiv.org/abs/2210.05889v3
- Date: Tue, 2 May 2023 19:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 18:42:57.751186
- Title: KAIROS: Building Cost-Efficient Machine Learning Inference Systems with
Heterogeneous Cloud Resources
- Title(参考訳): KAIROS: 異種クラウドリソースを用いた費用効率の良い機械学習推論システムの構築
- Authors: Baolin Li, Siddharth Samsi, Vijay Gadepally, Devesh Tiwari
- Abstract要約: KAIROSは、目標達成時のクエリスループットとコスト予算を最大化する、新しいランタイムフレームワークである。
産業レベルのディープラーニング(DL)モデルを用いて評価した結果,KAIROSは最適均一解のスループットを最大2倍に向上することがわかった。
- 参考スコア(独自算出の注目度): 10.462798429064277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online inference is becoming a key service product for many businesses,
deployed in cloud platforms to meet customer demands. Despite their
revenue-generation capability, these services need to operate under tight
Quality-of-Service (QoS) and cost budget constraints. This paper introduces
KAIROS, a novel runtime framework that maximizes the query throughput while
meeting QoS target and a cost budget. KAIROS designs and implements novel
techniques to build a pool of heterogeneous compute hardware without online
exploration overhead, and distribute inference queries optimally at runtime.
Our evaluation using industry-grade deep learning (DL) models shows that KAIROS
yields up to 2X the throughput of an optimal homogeneous solution, and
outperforms state-of-the-art schemes by up to 70%, despite advantageous
implementations of the competing schemes to ignore their exploration overhead.
- Abstract(参考訳): オンライン推論は、顧客要求を満たすためにクラウドプラットフォームにデプロイされた、多くのビジネスにとって重要なサービス製品になりつつある。
収益生成能力にもかかわらず、これらのサービスはqos(quality-of-service)とコスト予算の制約の下で運用する必要があります。
本稿では,QoSターゲットとコスト予算を満たしながらクエリスループットを最大化する,新しいランタイムフレームワークであるKAIROSを紹介する。
KAIROSは、オンライン探索のオーバーヘッドを伴わずに不均一な計算ハードウェアのプールを構築し、実行時に推論クエリを最適に分散する新しい技術の設計と実装を行っている。
産業グレードのディープラーニング(DL)モデルを用いた評価では,KAIROSは最適均一解のスループットを最大2倍に向上し,探索オーバーヘッドを無視するための競合するスキームの実装にもかかわらず,最先端のスキームを最大70%上回った。
関連論文リスト
- Decentralized AI: Permissionless LLM Inference on POKT Network [8.68822221491139]
POKT Networkの分散リモートプロシージャコールインフラストラクチャは、2020年にMainNetでローンチして以来、7400億のリクエストを突破している。
この論文は、このネットワークのオープンソースでパーミッションレスな設計が、モデル研究者、ハードウェアオペレータ、APIプロバイダ、ユーザ間のインセンティブをどのように調整するかを説明している。
論文 参考訳(メタデータ) (2024-05-30T19:50:07Z) - Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing [53.748685766139715]
大規模言語モデル(LLM)は、ほとんどのNLPタスクで優れていますが、そのサイズのため、デプロイに高価なクラウドサーバも必要です。
コスト削減と品質維持のために,それぞれの強みを組み合わせたハイブリッド推論手法を提案する。
実験では、反応の品質が低下することなく、最大40%大きなモデルへの呼び出しを削減できます。
論文 参考訳(メタデータ) (2024-04-22T23:06:42Z) - A Learning-based Incentive Mechanism for Mobile AIGC Service in Decentralized Internet of Vehicles [49.86094523878003]
モバイルAIGCサービスアロケーションのための分散インセンティブ機構を提案する。
我々は、AIGCサービスのRSUへの供給と、IoVコンテキスト内のサービスに対するユーザ要求のバランスを見つけるために、マルチエージェントの深層強化学習を採用している。
論文 参考訳(メタデータ) (2024-03-29T12:46:07Z) - A Cost-Aware Mechanism for Optimized Resource Provisioning in Cloud
Computing [6.369406986434764]
我々は,要求のコスト削減を保証する新しい学習ベースの資源供給手法を提案してきた。
我々の手法は要求のほとんどを効率的に適応させ、さらに結果のパフォーマンスは設計目標に合致する。
論文 参考訳(メタデータ) (2023-09-20T13:27:30Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - CILP: Co-simulation based Imitation Learner for Dynamic Resource
Provisioning in Cloud Computing Environments [13.864161788250856]
レイテンシクリティカルなタスクの主な課題は、積極的にプロビジョニングする将来のワークロード要求を予測することだ。
既存のAIベースのソリューションは、プロビジョニングのオーバーヘッド、異種VMコスト、クラウドシステムの品質(QoS)など、すべての重要な側面を公平に考慮しない傾向があります。
予測と最適化の2つのサブプロブレムとしてVMプロビジョニング問題を定式化するCILPと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-11T09:15:34Z) - RIBBON: Cost-Effective and QoS-Aware Deep Learning Model Inference using
a Diverse Pool of Cloud Computing Instances [7.539635201319158]
RIBBONは、新しいディープラーニング推論サービスシステムである。
サービス品質(QoS)の目標とコスト効率の2つの競合目標を満たす。
論文 参考訳(メタデータ) (2022-07-23T06:45:14Z) - Serving and Optimizing Machine Learning Workflows on Heterogeneous
Infrastructures [9.178035808110124]
JellyBeanは、異種インフラストラクチャ上での機械学習推論の提供と最適化のためのフレームワークである。
JellyBeanは、視覚的質問応答のサービスコストを最大58%削減し、NVIDIA AI City Challengeからの車両追跡を最大36%削減する。
論文 参考訳(メタデータ) (2022-05-10T07:32:32Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。