論文の概要: Towards Demystifying Serverless Machine Learning Training
- arxiv url: http://arxiv.org/abs/2105.07806v1
- Date: Mon, 17 May 2021 13:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:23:59.636290
- Title: Towards Demystifying Serverless Machine Learning Training
- Title(参考訳): サーバレス機械学習トレーニングのデミスティフィケーションに向けて
- Authors: Jiawei Jiang, Shaoduo Gan, Yue Liu, Fanlin Wang, Gustavo Alonso, Ana
Klimovic, Ankit Singla, Wentao Wu, Ce Zhang
- Abstract要約: 本稿では、サーバーレスインフラストラクチャ上で分散機械学習トレーニングを体系的に比較研究する。
サーバレスインフラストラクチャを選択する際に考慮すべきコスト/パフォーマンストレードオフをキャプチャする分析モデルを開発する。
- 参考スコア(独自算出の注目度): 19.061432528378788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The appeal of serverless (FaaS) has triggered a growing interest on how to
use it in data-intensive applications such as ETL, query processing, or machine
learning (ML). Several systems exist for training large-scale ML models on top
of serverless infrastructures (e.g., AWS Lambda) but with inconclusive results
in terms of their performance and relative advantage over "serverful"
infrastructures (IaaS). In this paper we present a systematic, comparative
study of distributed ML training over FaaS and IaaS. We present a design space
covering design choices such as optimization algorithms and synchronization
protocols, and implement a platform, LambdaML, that enables a fair comparison
between FaaS and IaaS. We present experimental results using LambdaML, and
further develop an analytic model to capture cost/performance tradeoffs that
must be considered when opting for a serverless infrastructure. Our results
indicate that ML training pays off in serverless only for models with efficient
(i.e., reduced) communication and that quickly converge. In general, FaaS can
be much faster but it is never significantly cheaper than IaaS.
- Abstract(参考訳): サーバレス(FaaS)の魅力は、ETLやクエリ処理、マシンラーニング(ML)といったデータ集約型アプリケーションでそれを使用する方法への関心が高まっている。
サーバレスインフラストラクチャ(AWS Lambdaなど)上で大規模なMLモデルをトレーニングするためのシステムはいくつか存在するが、パフォーマンスと"サーバレス"インフラストラクチャ(IaaS)に対する相対的なアドバンテージの観点からは、決定的な結果が得られていない。
本稿では、FaaSとIaaSを用いた分散MLトレーニングの体系的比較研究について述べる。
本稿では、最適化アルゴリズムや同期プロトコルなどの設計選択をカバーし、FaaSとIaaSの公正な比較を可能にするプラットフォームであるLambdaMLを実装した設計空間を提案する。
LambdaMLを用いた実験結果と、サーバレスインフラストラクチャを選択する際に考慮すべきコスト/パフォーマンストレードオフをキャプチャする分析モデルをさらに発展させる。
結果は、効率的な(すなわち、削減された)通信モデルと素早く収束するモデルに対してのみ、mlトレーニングがサーバーレスで効果を発揮することを示している。
一般的には、FaaSはずっと高速ですが、IaaSよりもはるかに安くはありません。
関連論文リスト
- R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication [2.1301190271783317]
FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。
我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
論文 参考訳(メタデータ) (2024-03-22T13:31:24Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Cost Effective MLaaS Federation: A Combinatorial Reinforcement Learning
Approach [9.50492686145041]
異なるMLを連携させることで、分析性能をさらに改善できます。
異なるMLからの生意気な集約の結果は、かなりの一時的なコストを発生させるだけでなく、最適以下のパフォーマンス向上につながる可能性がある。
本稿では,MLプロバイダの適切な選択を統一し,最高の分析性能を実現するためのフレームワークであるArmolを提案する。
論文 参考訳(メタデータ) (2022-04-29T09:44:04Z) - Evaluation and Optimization of Distributed Machine Learning Techniques
for Internet of Things [34.544836653715244]
federated learning (fl) と split learning (sl) は最先端の分散機械学習技術である。
最近のFLとSLは、それぞれの利点を活用するために、分割学習(SFL)を形成するために組み合わせられる。
この作業ではFL、SL、SFLを考慮し、Raspberry Piデバイスにマウントしてパフォーマンスを評価します。
論文 参考訳(メタデータ) (2021-03-03T23:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。