論文の概要: MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving
on Serverless Computing Platforms
- arxiv url: http://arxiv.org/abs/2202.11243v1
- Date: Wed, 23 Feb 2022 00:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:05:54.801665
- Title: MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving
on Serverless Computing Platforms
- Title(参考訳): MLProxy: サーバレスコンピューティングプラットフォーム上でのマシンラーニング推論のためのSLA対応のリバースプロキシ
- Authors: Nima Mahmoudi, Hamzeh Khazaei
- Abstract要約: クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。
近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。
本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
- 参考スコア(独自算出の注目度): 5.089110111757978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Serving machine learning inference workloads on the cloud is still a
challenging task on the production level. Optimal configuration of the
inference workload to meet SLA requirements while optimizing the infrastructure
costs is highly complicated due to the complex interaction between batch
configuration, resource configurations, and variable arrival process.
Serverless computing has emerged in recent years to automate most
infrastructure management tasks. Workload batching has revealed the potential
to improve the response time and cost-effectiveness of machine learning serving
workloads. However, it has not yet been supported out of the box by serverless
computing platforms. Our experiments have shown that for various machine
learning workloads, batching can hugely improve the system's efficiency by
reducing the processing overhead per request.
In this work, we present MLProxy, an adaptive reverse proxy to support
efficient machine learning serving workloads on serverless computing systems.
MLProxy supports adaptive batching to ensure SLA compliance while optimizing
serverless costs. We performed rigorous experiments on Knative to demonstrate
the effectiveness of MLProxy. We showed that MLProxy could reduce the cost of
serverless deployment by up to 92% while reducing SLA violations by up to 99%
that can be generalized across state-of-the-art model serving frameworks.
- Abstract(参考訳): クラウド上で機械学習推論ワークロードを提供するのは、プロダクションレベルではまだ難しい課題です。
SLA要件を満たすための推論ワークロードの最適設定とインフラストラクチャコストの最適化は、バッチ設定、リソース設定、変数到着プロセスの間の複雑な相互作用のため、非常に複雑です。
サーバーレスコンピューティングは、多くのインフラストラクチャ管理タスクを自動化するために近年登場している。
ワークロードのバッチ化によって、マシンラーニングサービスワークロードの応答時間とコスト効率が向上する可能性が明らかになった。
しかし、サーバーレスコンピューティングプラットフォームではまだサポートされていない。
我々の実験は、さまざまな機械学習ワークロードに対して、バッチ処理が要求毎の処理オーバーヘッドを削減し、システムの効率を大幅に改善できることを示しました。
本稿では、サーバーレスコンピューティングシステムにおける効率的な機械学習サービスを支援する適応型リバースプロキシであるmlproxyを提案する。
MLProxyは適応バッチをサポートし、サーバレスコストを最適化しながらSLA準拠を保証する。
我々はKnativeで厳密な実験を行い、MLProxyの有効性を実証した。
mlproxyは、サーバーレスデプロイメントのコストを最大92%削減できると同時に、最先端のモデル提供フレームワークにまたがって一般化可能な、sla違反を最大99%削減できることを示した。
関連論文リスト
- FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication [2.1301190271783317]
FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。
我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
論文 参考訳(メタデータ) (2024-03-22T13:31:24Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Exploring the Impact of Serverless Computing on Peer To Peer Training
Machine Learning [0.3441021278275805]
分散トレーニングのためのサーバーレスコンピューティングとP2Pネットワークを組み合わせた新しいアーキテクチャを導入する。
その結果,従来のP2P分散学習法と比較して97.34%の改善がみられた。
コストタイムのトレードオフにもかかわらず、サーバーレスのアプローチは依然として有望である。
論文 参考訳(メタデータ) (2023-09-25T13:51:07Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Architecting Peer-to-Peer Serverless Distributed Machine Learning
Training for Improved Fault Tolerance [1.495380389108477]
サーバレスコンピューティングは、計算単位として関数を使用するクラウドコンピューティングの新しいパラダイムである。
ワークロードを分散することにより、分散機械学習はトレーニングプロセスを高速化し、より複雑なモデルをトレーニングできるようにする。
本稿では、分散機械学習トレーニングにおけるサーバーレスコンピューティングの利用について検討し、P2Pアーキテクチャの性能とパラメータサーバアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-02-27T17:38:47Z) - Multi-Agent Automated Machine Learning [54.14038920246645]
自動機械学習(AutoML)におけるモジュールの共同最適化のためのマルチエージェント自動機械学習(MA2ML)を提案する。
MA2MLはモジュール間の協力を強化するために各エージェントにクレジットを明示的に割り当て、検索効率を向上させるために政治外の学習を取り入れている。
実験により、MA2MLは計算コストの制約の下でImageNet上で最先端のトップ1の精度が得られることが示された。
論文 参考訳(メタデータ) (2022-10-17T13:32:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Towards Demystifying Serverless Machine Learning Training [19.061432528378788]
本稿では、サーバーレスインフラストラクチャ上で分散機械学習トレーニングを体系的に比較研究する。
サーバレスインフラストラクチャを選択する際に考慮すべきコスト/パフォーマンストレードオフをキャプチャする分析モデルを開発する。
論文 参考訳(メタデータ) (2021-05-17T13:19:23Z) - AI-based Resource Allocation: Reinforcement Learning for Adaptive
Auto-scaling in Serverless Environments [0.0]
近年、サーバーレスコンピューティングはクラウドコンピューティングモデルの魅力的な新しいパラダイムとして現れています。
商用およびオープンソースのサーバレスコンピューティングプラットフォームに共通するアプローチは、ワークロードベースの自動スケーリングである。
本稿では、サーバーレスフレームワークにおける要求ベース自動スケーリングに対する強化学習アプローチの適用性について検討する。
論文 参考訳(メタデータ) (2020-05-29T06:18:39Z) - Dynamic Parameter Allocation in Parameter Servers [74.250687861348]
本稿では,パラメータサーバに動的パラメータ割り当てを組み込んで,Lapse と呼ばれるパラメータサーバの効率的な実装を提案する。
Lapseはニアリニアなスケーリングを提供しており、既存のパラメータサーバよりも桁違いに高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-03T11:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。