論文の概要: Serverless Model Serving for Data Science
- arxiv url: http://arxiv.org/abs/2103.02958v1
- Date: Thu, 4 Mar 2021 11:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:05:18.252168
- Title: Serverless Model Serving for Data Science
- Title(参考訳): データサイエンスのためのサーバレスモデル
- Authors: Yuncheng Wu, Tien Tuan Anh Dinh, Guoyu Hu, Meihui Zhang, Yeow Meng
Chee, Beng Chin Ooi
- Abstract要約: データサイエンスアプリケーションのための主流モデルとしてのサーバーレスの実現可能性について検討する。
サーバーレスは、コストとパフォーマンスに関して多くのクラウドベースの代替手段を上回っています。
スケーラブルで費用対効果の高いモデルサービスにサーバレスを使用する方法について、データサイエンティストにいくつかの推奨事項を提示します。
- 参考スコア(独自算出の注目度): 23.05534539170047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) is an important part of modern data science
applications. Data scientists today have to manage the end-to-end ML life cycle
that includes both model training and model serving, the latter of which is
essential, as it makes their works available to end-users. Systems for model
serving require high performance, low cost, and ease of management. Cloud
providers are already offering model serving options, including managed
services and self-rented servers. Recently, serverless computing, whose
advantages include high elasticity and fine-grained cost model, brings another
possibility for model serving.
In this paper, we study the viability of serverless as a mainstream model
serving platform for data science applications. We conduct a comprehensive
evaluation of the performance and cost of serverless against other model
serving systems on two clouds: Amazon Web Service (AWS) and Google Cloud
Platform (GCP). We find that serverless outperforms many cloud-based
alternatives with respect to cost and performance. More interestingly, under
some circumstances, it can even outperform GPU-based systems for both average
latency and cost. These results are different from previous works' claim that
serverless is not suitable for model serving, and are contrary to the
conventional wisdom that GPU-based systems are better for ML workloads than
CPU-based systems. Other findings include a large gap in cold start time
between AWS and GCP serverless functions, and serverless' low sensitivity to
changes in workloads or models. Our evaluation results indicate that serverless
is a viable option for model serving. Finally, we present several practical
recommendations for data scientists on how to use serverless for scalable and
cost-effective model serving.
- Abstract(参考訳): 機械学習(ML)は、現代のデータサイエンスアプリケーションの重要な部分です。
データサイエンティストは現在、モデルトレーニングとモデルサービスの両方を含むエンドツーエンドのMLライフサイクルを管理しなければなりません。
モデルサービスのためのシステムは、高いパフォーマンス、低コスト、管理の容易さを必要とする。
クラウドプロバイダは、マネージドサービスやセルフレンタルサーバなど、モデルサービスオプションをすでに提供している。
最近では、高い弾力性ときめ細かいコストモデルを含むサーバレスコンピューティングが、モデル提供の新たな可能性をもたらしている。
本稿では、データサイエンスアプリケーションのためのプラットフォームを提供する主流モデルとしてのサーバーレスの実現可能性について検討する。
Amazon Web Service(AWS)とGoogle Cloud Platform(GCP)の2つのクラウド上の他のモデルサービスシステムに対して、サーバレスのパフォーマンスとコストを総合的に評価します。
サーバーレスは、コストとパフォーマンスに関して多くのクラウドベースの代替手段を上回っています。
さらに興味深いのは、いくつかの状況下では、平均レイテンシとコストの両方でGPUベースのシステムより優れていることだ。
これらの結果は、サーバーレスはモデルサービスには適さないという以前のワークスの主張と異なり、GPUベースのシステムはCPUベースのシステムよりもMLワークロードに適しているという従来の認識に反している。
他の発見としては、AWSとGCPのサーバレス関数間のコールドスタート時間の大きなギャップ、ワークロードやモデルの変更に対するサーバレスの低感度などが挙げられる。
評価結果は、サーバレスがモデルサービスにとって実行可能な選択肢であることを示している。
最後に,スケーラブルでコスト効率のよいモデル提供にサーバレスを使用する方法について,データサイエンティストに対していくつかの実践的な推奨を行う。
関連論文リスト
- FusedInf: Efficient Swapping of DNN Models for On-Demand Serverless Inference Services on the Edge [2.1119495676190128]
我々はFusedInfを導入し、エッジ上のオンデマンドサーバレス推論サービスにDNNモデルを効率よく置き換える。
DNNモデルを評価した結果,単一のDAGを作成すれば,モデルの実行が最大14%高速化できることがわかった。
論文 参考訳(メタデータ) (2024-10-28T15:21:23Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - Performance Modeling of Metric-Based Serverless Computing Platforms [5.089110111757978]
提案されたパフォーマンスモデルは、開発者とプロバイダが異なる構成でデプロイメントのパフォーマンスとコストを予測するのに役立つ。
Knative上での実環境実験を行うことで,提案した性能モデルの適用性と精度を検証した。
論文 参考訳(メタデータ) (2022-02-23T00:39:01Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Serverless inferencing on Kubernetes [0.0]
我々は、サーバレス機械学習推論ソリューションを提供するために、KNativeサーバレスパラダイムに基づいて構築されたKFServingプロジェクトについて議論する。
GPUベースの推論を自動スケーリングする際の課題の解決方法を示し、本番環境での使用から学んだ教訓について論じる。
論文 参考訳(メタデータ) (2020-07-14T21:23:59Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z) - MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。
私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文 参考訳(メタデータ) (2020-06-09T07:48:20Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。