論文の概要: SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning
Design and Training
- arxiv url: http://arxiv.org/abs/2205.01853v1
- Date: Wed, 4 May 2022 02:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 16:28:05.290393
- Title: SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning
Design and Training
- Title(参考訳): SMLT: スケーラブルで適応的な機械学習設計とトレーニングのためのサーバレスフレームワーク
- Authors: Ahsan Ali, Syed Zawad, Paarijaat Aditya, Istemi Ekin Akkus, Ruichuan
Chen, Feng Yan
- Abstract要約: SMLTは、自動化されたスケーラブルで適応的なサーバレスフレームワークで、効率的でユーザ中心のML設計とトレーニングを可能にする。
SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。
大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.015081523508339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's production machine learning (ML) systems, models are continuously
trained, improved, and deployed. ML design and training are becoming a
continuous workflow of various tasks that have dynamic resource demands.
Serverless computing is an emerging cloud paradigm that provides transparent
resource management and scaling for users and has the potential to
revolutionize the routine of ML design and training. However, hosting modern ML
workflows on existing serverless platforms has non-trivial challenges due to
their intrinsic design limitations such as stateless nature, limited
communication support across function instances, and limited function execution
duration. These limitations result in a lack of an overarching view and
adaptation mechanism for training dynamics and an amplification of existing
problems in ML workflows.
To address the above challenges, we propose SMLT, an automated, scalable, and
adaptive serverless framework to enable efficient and user-centric ML design
and training. SMLT employs an automated and adaptive scheduling mechanism to
dynamically optimize the deployment and resource scaling for ML tasks during
training. SMLT further enables user-centric ML workflow execution by supporting
user-specified training deadlines and budget limits. In addition, by providing
an end-to-end design, SMLT solves the intrinsic problems in serverless
platforms such as the communication overhead, limited function execution
duration, need for repeated initialization, and also provides explicit fault
tolerance for ML training. SMLT is open-sourced and compatible with all major
ML frameworks. Our experimental evaluation with large, sophisticated modern ML
models demonstrate that SMLT outperforms the state-of-the-art VM based systems
and existing serverless ML training frameworks in both training speed (up to
8X) and monetary cost (up to 3X)
- Abstract(参考訳): 今日のプロダクション機械学習(ML)システムでは、モデルは継続的にトレーニングされ、改善され、デプロイされます。
ml設計とトレーニングは、動的リソース要求を持つさまざまなタスクの継続的なワークフローになりつつある。
サーバレスコンピューティングは、ユーザの透過的なリソース管理とスケーリングを提供する、新興クラウドパラダイムであり、ML設計とトレーニングのルーチンに革命をもたらす可能性がある。
しかしながら、既存のサーバレスプラットフォームでモダンなMLワークフローをホストすることは、ステートレスな性質、関数インスタンス間の通信サポートの制限、関数の実行期間の制限など、本質的に設計上の制限があるため、簡単な問題ではない。
これらの制限は、動的をトレーニングするための包括的なビューと適応メカニズムの欠如と、MLワークフローにおける既存の問題の増幅をもたらす。
上記の課題に対処するため、私たちは、効率的でユーザ中心のML設計とトレーニングを可能にする、自動化されたスケーラブルで適応的なサーバレスフレームワークであるSMLTを提案する。
SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。
SMLTはさらに、ユーザ指定のトレーニング期限と予算制限をサポートすることで、ユーザ中心のMLワークフローの実行を可能にする。
さらに、エンドツーエンドの設計を提供することで、SMLTは通信オーバーヘッド、機能実行期間の制限、繰り返し初期化の必要性、MLトレーニングに対する明確なフォールトトレランスといった、サーバレスプラットフォーム固有の問題を解決する。
SMLTはオープンソースで、すべての主要なMLフレームワークと互換性がある。
大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Towards Self-Adaptive Machine Learning-Enabled Systems Through QoS-Aware
Model Switching [1.2277343096128712]
本稿では,機械学習モデルバランサの概念を提案し,複数のモデルを用いてMLモデルに関連する不確実性を管理する。
AdaMLSは、この概念を活用し、従来のMAPE-Kループを拡張した新しい自己適応手法である。
予備的な結果は、AdaMLSが保証において、単純で単一の最先端モデルを上回ることを示唆している。
論文 参考訳(メタデータ) (2023-08-19T09:33:51Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - BPMN4sML: A BPMN Extension for Serverless Machine Learning. Technology
Independent and Interoperable Modeling of Machine Learning Workflows and
their Serverless Deployment Orchestration [0.0]
機械学習(ML)は学術、産業、社会のあらゆる層に浸透し続けている。
ビジネスプロセスモデルと表記法(BPMN)は広く受け入れられ、適用されています。
BPMNは機械学習を表現するための特別なサポートではない。
BPMN4sML(サーバレス機械学習のためのBPMN)を紹介します。
論文 参考訳(メタデータ) (2022-08-02T10:36:00Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - A Unified Transferable Model for ML-Enhanced DBMS [53.46830627879208]
本稿では,タスク間で伝達可能な知識をキャプチャするマルチタスクトレーニングプロシージャと,db間でのメタ知識を蒸留するプリトレーニングファインチューンプロシージャを用いた統一モデルmtmlfを提案する。
このパラダイムはクラウドDBサービスに適しており、将来的にMLの使用方法に革命をもたらす可能性があると考えています。
論文 参考訳(メタデータ) (2021-05-06T03:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。