論文の概要: FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication
- arxiv url: http://arxiv.org/abs/2403.15195v1
- Date: Fri, 22 Mar 2024 13:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.276970
- Title: FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication
- Title(参考訳): FSD推論: スケーラブルなクラウド通信を備えたフルサーバレス分散推論
- Authors: Joe Oakley, Hakan Ferhatosmanoglu,
- Abstract要約: FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。
我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
- 参考スコア(独自算出の注目度): 2.1301190271783317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serverless computing offers attractive scalability, elasticity and cost-effectiveness. However, constraints on memory, CPU and function runtime have hindered its adoption for data-intensive applications and machine learning (ML) workloads. Traditional 'server-ful' platforms enable distributed computation via fast networks and well-established inter-process communication (IPC) mechanisms such as MPI and shared memory. In the absence of such solutions in the serverless domain, parallel computation with significant IPC requirements is challenging. We present FSD-Inference, the first fully serverless and highly scalable system for distributed ML inference. We explore potential communication channels, in conjunction with Function-as-a-Service (FaaS) compute, to design a state-of-the-art solution for distributed ML within the context of serverless data-intensive computing. We introduce novel fully serverless communication schemes for ML inference workloads, leveraging both cloud-based publish-subscribe/queueing and object storage offerings. We demonstrate how publish-subscribe/queueing services can be adapted for FaaS IPC with comparable performance to object storage, while offering significantly reduced cost at high parallelism levels. We conduct in-depth experiments on benchmark DNNs of various sizes. The results show that when compared to server-based alternatives, FSD-Inference is significantly more cost-effective and scalable, and can even achieve competitive performance against optimized HPC solutions. Experiments also confirm that our serverless solution can handle large distributed workloads and leverage high degrees of FaaS parallelism.
- Abstract(参考訳): サーバレスコンピューティングは、魅力的なスケーラビリティ、弾力性、コスト効率を提供する。
しかし、メモリ、CPU、関数ランタイムの制約により、データ集約型アプリケーションや機械学習(ML)ワークロードへの採用が妨げられている。
従来の'サーバフル'プラットフォームは、高速ネットワークを介した分散計算と、MPIや共有メモリなどの確立されたプロセス間通信(IPC)機構を実現する。
サーバーレスドメインにそのようなソリューションがない場合、重要なIPC要求を伴う並列計算は困難である。
FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。
本稿では、FaaS(Function-as-a-Service)計算と組み合わせて、サーバレスデータ集約コンピューティングのコンテキスト内で分散MLのための最先端ソリューションを設計する潜在的な通信チャネルについて検討する。
我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
我々は、オブジェクトストレージと同等の性能を持つFaaS IPCに対して、パブリッシュ/サブスクライブ/キューサービスをどのように適用できるかを示し、高い並列性レベルでコストを大幅に削減する。
様々な大きさのベンチマークDNNについて詳細な実験を行う。
その結果、サーバベースの代替品と比較して、FSD-Inferenceはコスト効率が著しく高く、スケーラブルであり、最適化されたHPCソリューションと競合する性能を達成できることを示した。
サーバレスソリューションが大規模な分散ワークロードを処理し、高いレベルのFaaS並列性を活用することも、試験によって確認できます。
関連論文リスト
- Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - Multi-Edge Server-Assisted Dynamic Federated Learning with an Optimized
Floating Aggregation Point [51.47520726446029]
協調エッジ学習(CE-FL)は、分散機械学習アーキテクチャである。
CE-FLの過程をモデル化し,分析訓練を行った。
実世界のテストベッドから収集したデータを用いて,本フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2022-03-26T00:41:57Z) - MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving
on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。
近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。
本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文 参考訳(メタデータ) (2022-02-23T00:27:49Z) - Reinforcement Learning Framework for Server Placement and Workload
Allocation in Multi-Access Edge Computing [9.598394554018164]
本稿では,最小コストでMEC設計を実現するために,ネットワーク遅延とエッジサーバ数の両方を最小化する問題に対処する。
本稿では,この問題を解決するためのマルコフ決定プロセス(MDP)の設計において,状態空間,行動空間,ペナルティ関数の効率的な表現とモデル化を行う新しいRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-21T03:04:50Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Towards Demystifying Serverless Machine Learning Training [19.061432528378788]
本稿では、サーバーレスインフラストラクチャ上で分散機械学習トレーニングを体系的に比較研究する。
サーバレスインフラストラクチャを選択する際に考慮すべきコスト/パフォーマンストレードオフをキャプチャする分析モデルを開発する。
論文 参考訳(メタデータ) (2021-05-17T13:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。