論文の概要: SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning
Design and Training
- arxiv url: http://arxiv.org/abs/2205.01853v1
- Date: Wed, 4 May 2022 02:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 16:28:05.290393
- Title: SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning
Design and Training
- Title(参考訳): SMLT: スケーラブルで適応的な機械学習設計とトレーニングのためのサーバレスフレームワーク
- Authors: Ahsan Ali, Syed Zawad, Paarijaat Aditya, Istemi Ekin Akkus, Ruichuan
Chen, Feng Yan
- Abstract要約: SMLTは、自動化されたスケーラブルで適応的なサーバレスフレームワークで、効率的でユーザ中心のML設計とトレーニングを可能にする。
SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。
大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.015081523508339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's production machine learning (ML) systems, models are continuously
trained, improved, and deployed. ML design and training are becoming a
continuous workflow of various tasks that have dynamic resource demands.
Serverless computing is an emerging cloud paradigm that provides transparent
resource management and scaling for users and has the potential to
revolutionize the routine of ML design and training. However, hosting modern ML
workflows on existing serverless platforms has non-trivial challenges due to
their intrinsic design limitations such as stateless nature, limited
communication support across function instances, and limited function execution
duration. These limitations result in a lack of an overarching view and
adaptation mechanism for training dynamics and an amplification of existing
problems in ML workflows.
To address the above challenges, we propose SMLT, an automated, scalable, and
adaptive serverless framework to enable efficient and user-centric ML design
and training. SMLT employs an automated and adaptive scheduling mechanism to
dynamically optimize the deployment and resource scaling for ML tasks during
training. SMLT further enables user-centric ML workflow execution by supporting
user-specified training deadlines and budget limits. In addition, by providing
an end-to-end design, SMLT solves the intrinsic problems in serverless
platforms such as the communication overhead, limited function execution
duration, need for repeated initialization, and also provides explicit fault
tolerance for ML training. SMLT is open-sourced and compatible with all major
ML frameworks. Our experimental evaluation with large, sophisticated modern ML
models demonstrate that SMLT outperforms the state-of-the-art VM based systems
and existing serverless ML training frameworks in both training speed (up to
8X) and monetary cost (up to 3X)
- Abstract(参考訳): 今日のプロダクション機械学習(ML)システムでは、モデルは継続的にトレーニングされ、改善され、デプロイされます。
ml設計とトレーニングは、動的リソース要求を持つさまざまなタスクの継続的なワークフローになりつつある。
サーバレスコンピューティングは、ユーザの透過的なリソース管理とスケーリングを提供する、新興クラウドパラダイムであり、ML設計とトレーニングのルーチンに革命をもたらす可能性がある。
しかしながら、既存のサーバレスプラットフォームでモダンなMLワークフローをホストすることは、ステートレスな性質、関数インスタンス間の通信サポートの制限、関数の実行期間の制限など、本質的に設計上の制限があるため、簡単な問題ではない。
これらの制限は、動的をトレーニングするための包括的なビューと適応メカニズムの欠如と、MLワークフローにおける既存の問題の増幅をもたらす。
上記の課題に対処するため、私たちは、効率的でユーザ中心のML設計とトレーニングを可能にする、自動化されたスケーラブルで適応的なサーバレスフレームワークであるSMLTを提案する。
SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。
SMLTはさらに、ユーザ指定のトレーニング期限と予算制限をサポートすることで、ユーザ中心のMLワークフローの実行を可能にする。
さらに、エンドツーエンドの設計を提供することで、SMLTは通信オーバーヘッド、機能実行期間の制限、繰り返し初期化の必要性、MLトレーニングに対する明確なフォールトトレランスといった、サーバレスプラットフォーム固有の問題を解決する。
SMLTはオープンソースで、すべての主要なMLフレームワークと互換性がある。
大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。
関連論文リスト
- Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Towards Self-Adaptive Machine Learning-Enabled Systems Through QoS-Aware
Model Switching [1.2277343096128712]
本稿では,機械学習モデルバランサの概念を提案し,複数のモデルを用いてMLモデルに関連する不確実性を管理する。
AdaMLSは、この概念を活用し、従来のMAPE-Kループを拡張した新しい自己適応手法である。
予備的な結果は、AdaMLSが保証において、単純で単一の最先端モデルを上回ることを示唆している。
論文 参考訳(メタデータ) (2023-08-19T09:33:51Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - MLCopilot: Unleashing the Power of Large Language Models in Solving
Machine Learning Tasks [31.733088105662876]
我々は、新しいフレームワークを導入することで、機械学習と人間の知識のギャップを埋めることを目指している。
本稿では、構造化された入力を理解するためのLLMの能力を拡張し、新しいMLタスクを解くための徹底的な推論を行う可能性を示す。
論文 参考訳(メタデータ) (2023-04-28T17:03:57Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - BPMN4sML: A BPMN Extension for Serverless Machine Learning. Technology
Independent and Interoperable Modeling of Machine Learning Workflows and
their Serverless Deployment Orchestration [0.0]
機械学習(ML)は学術、産業、社会のあらゆる層に浸透し続けている。
ビジネスプロセスモデルと表記法(BPMN)は広く受け入れられ、適用されています。
BPMNは機械学習を表現するための特別なサポートではない。
BPMN4sML(サーバレス機械学習のためのBPMN)を紹介します。
論文 参考訳(メタデータ) (2022-08-02T10:36:00Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - A Unified Transferable Model for ML-Enhanced DBMS [53.46830627879208]
本稿では,タスク間で伝達可能な知識をキャプチャするマルチタスクトレーニングプロシージャと,db間でのメタ知識を蒸留するプリトレーニングファインチューンプロシージャを用いた統一モデルmtmlfを提案する。
このパラダイムはクラウドDBサービスに適しており、将来的にMLの使用方法に革命をもたらす可能性があると考えています。
論文 参考訳(メタデータ) (2021-05-06T03:31:32Z) - Robust MAML: Prioritization task buffer with adaptive learning process
for model-agnostic meta-learning [15.894925018423665]
モデル非依存メタラーニング(MAML)は、最先端のメタラーニングアルゴリズムである。
本稿では適応型学習方式と優先順位付けタスクバッファに基づくより堅牢なMAMLを提案する。
メタ強化学習環境の実験結果は、実質的なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2021-03-15T09:34:34Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。