Fugu-MT 論文翻訳(概要): SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning Design and Training

論文の概要: SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning Design and Training

arxiv url: http://arxiv.org/abs/2205.01853v1
Date: Wed, 4 May 2022 02:11:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-05 16:28:05.290393
Title: SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning Design and Training
Title（参考訳）: SMLT: スケーラブルで適応的な機械学習設計とトレーニングのためのサーバレスフレームワーク
Authors: Ahsan Ali, Syed Zawad, Paarijaat Aditya, Istemi Ekin Akkus, Ruichuan Chen, Feng Yan
Abstract要約: SMLTは、自動化されたスケーラブルで適応的なサーバレスフレームワークで、効率的でユーザ中心のML設計とトレーニングを可能にする。 SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。
参考スコア（独自算出の注目度）: 4.015081523508339
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In today's production machine learning (ML) systems, models are continuously trained, improved, and deployed. ML design and training are becoming a continuous workflow of various tasks that have dynamic resource demands. Serverless computing is an emerging cloud paradigm that provides transparent resource management and scaling for users and has the potential to revolutionize the routine of ML design and training. However, hosting modern ML workflows on existing serverless platforms has non-trivial challenges due to their intrinsic design limitations such as stateless nature, limited communication support across function instances, and limited function execution duration. These limitations result in a lack of an overarching view and adaptation mechanism for training dynamics and an amplification of existing problems in ML workflows. To address the above challenges, we propose SMLT, an automated, scalable, and adaptive serverless framework to enable efficient and user-centric ML design and training. SMLT employs an automated and adaptive scheduling mechanism to dynamically optimize the deployment and resource scaling for ML tasks during training. SMLT further enables user-centric ML workflow execution by supporting user-specified training deadlines and budget limits. In addition, by providing an end-to-end design, SMLT solves the intrinsic problems in serverless platforms such as the communication overhead, limited function execution duration, need for repeated initialization, and also provides explicit fault tolerance for ML training. SMLT is open-sourced and compatible with all major ML frameworks. Our experimental evaluation with large, sophisticated modern ML models demonstrate that SMLT outperforms the state-of-the-art VM based systems and existing serverless ML training frameworks in both training speed (up to 8X) and monetary cost (up to 3X)
Abstract（参考訳）: 今日のプロダクション機械学習(ML)システムでは、モデルは継続的にトレーニングされ、改善され、デプロイされます。 ml設計とトレーニングは、動的リソース要求を持つさまざまなタスクの継続的なワークフローになりつつある。サーバレスコンピューティングは、ユーザの透過的なリソース管理とスケーリングを提供する、新興クラウドパラダイムであり、ML設計とトレーニングのルーチンに革命をもたらす可能性がある。しかしながら、既存のサーバレスプラットフォームでモダンなMLワークフローをホストすることは、ステートレスな性質、関数インスタンス間の通信サポートの制限、関数の実行期間の制限など、本質的に設計上の制限があるため、簡単な問題ではない。これらの制限は、動的をトレーニングするための包括的なビューと適応メカニズムの欠如と、MLワークフローにおける既存の問題の増幅をもたらす。上記の課題に対処するため、私たちは、効率的でユーザ中心のML設計とトレーニングを可能にする、自動化されたスケーラブルで適応的なサーバレスフレームワークであるSMLTを提案する。 SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。 SMLTはさらに、ユーザ指定のトレーニング期限と予算制限をサポートすることで、ユーザ中心のMLワークフローの実行を可能にする。さらに、エンドツーエンドの設計を提供することで、SMLTは通信オーバーヘッド、機能実行期間の制限、繰り返し初期化の必要性、MLトレーニングに対する明確なフォールトトレランスといった、サーバレスプラットフォーム固有の問題を解決する。 SMLTはオープンソースで、すべての主要なMLフレームワークと互換性がある。大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。

関連論文リスト

PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Efficient Domain Adaptation of Multimodal Embeddings using Constrastive Learning [0.08192907805418582]
現在のアプローチでは、タスク固有の適応なしに事前訓練されたモデルを使用する際にサブパー結果を得るか、あるいは微調整のためにかなりの計算資源を必要とする。本稿では,高コストな微調整処理を必要とせず,基礎的なマルチモーダルな埋め込みを下流タスクに適用するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-04T06:30:12Z)
Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions [0.36832029288386137]
本稿では、サーバレスアーキテクチャが大規模ML推論タスクを迅速かつ低コストで実現する方法について検討する。サーバレス並列処理は、モノリシックなアプローチと比較して、同じコストで、実行時間を95%以上削減できることを示した。
論文参考訳（メタデータ） (2025-01-30T15:47:55Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文参考訳（メタデータ） (2024-09-30T12:36:27Z)
MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文参考訳（メタデータ） (2024-08-07T02:28:37Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Towards Self-Adaptive Machine Learning-Enabled Systems Through QoS-Aware Model Switching [1.2277343096128712]
本稿では,機械学習モデルバランサの概念を提案し,複数のモデルを用いてMLモデルに関連する不確実性を管理する。 AdaMLSは、この概念を活用し、従来のMAPE-Kループを拡張した新しい自己適応手法である。予備的な結果は、AdaMLSが保証において、単純で単一の最先端モデルを上回ることを示唆している。
論文参考訳（メタデータ） (2023-08-19T09:33:51Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
BPMN4sML: A BPMN Extension for Serverless Machine Learning. Technology Independent and Interoperable Modeling of Machine Learning Workflows and their Serverless Deployment Orchestration [0.0]
機械学習(ML)は学術、産業、社会のあらゆる層に浸透し続けている。ビジネスプロセスモデルと表記法(BPMN)は広く受け入れられ、適用されています。 BPMNは機械学習を表現するための特別なサポートではない。 BPMN4sML(サーバレス機械学習のためのBPMN)を紹介します。
論文参考訳（メタデータ） (2022-08-02T10:36:00Z)
Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML) Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文参考訳（メタデータ） (2022-05-30T03:43:35Z)
A Unified Transferable Model for ML-Enhanced DBMS [53.46830627879208]
本稿では,タスク間で伝達可能な知識をキャプチャするマルチタスクトレーニングプロシージャと,db間でのメタ知識を蒸留するプリトレーニングファインチューンプロシージャを用いた統一モデルmtmlfを提案する。このパラダイムはクラウドDBサービスに適しており、将来的にMLの使用方法に革命をもたらす可能性があると考えています。
論文参考訳（メタデータ） (2021-05-06T03:31:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。