Fugu-MT 論文翻訳(概要): Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning

論文の概要: Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning

arxiv url: http://arxiv.org/abs/2205.14833v1
Date: Mon, 30 May 2022 03:43:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 18:38:04.243607
Title: Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning
Title（参考訳）: Walle: デバイスクラウド協調型機械学習のためのエンドツーエンド,汎用,大規模生産システム
Authors: Chengfei Lv, Chaoyue Niu, Renjie Gu, Xiaotang Jiang, Zhaode Wang, Bin Liu, Ziqi Wu, Qiulin Yao, Congyu Huang, Panos Huang, Tao Huang, Hui Shu, Jinde Song, Bin Zou, Peng Lan, Guohuan Xu, Fei Wu, Shaojie Tang, Fan Wu, Guihai Chen
Abstract要約: We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML) Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
参考スコア（独自算出の注目度）: 40.09527159285327
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: To break the bottlenecks of mainstream cloud-based machine learning (ML) paradigm, we adopt device-cloud collaborative ML and build the first end-to-end and general-purpose system, called Walle, as the foundation. Walle consists of a deployment platform, distributing ML tasks to billion-scale devices in time; a data pipeline, efficiently preparing task input; and a compute container, providing a cross-platform and high-performance execution environment, while facilitating daily task iteration. Specifically, the compute container is based on Mobile Neural Network (MNN), a tensor compute engine along with the data processing and model execution libraries, which are exposed through a refined Python thread-level virtual machine (VM) to support diverse ML tasks and concurrent task execution. The core of MNN is the novel mechanisms of operator decomposition and semi-auto search, sharply reducing the workload in manually optimizing hundreds of operators for tens of hardware backends and further quickly identifying the best backend with runtime optimization for a computation graph. The data pipeline introduces an on-device stream processing framework to enable processing user behavior data at source. The deployment platform releases ML tasks with an efficient push-then-pull method and supports multi-granularity deployment policies. We evaluate Walle in practical e-commerce application scenarios to demonstrate its effectiveness, efficiency, and scalability. Extensive micro-benchmarks also highlight the superior performance of MNN and the Python thread-level VM. Walle has been in large-scale production use in Alibaba, while MNN has been open source with a broad impact in the community.
Abstract（参考訳）: 主流のクラウドベースの機械学習(ML)パラダイムのボトルネックを打破するため、デバイスクラウドのコラボレーティブMLを採用し、Waleと呼ばれる最初のエンドツーエンドおよび汎用システムを構築しました。 Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供し、日々のタスクイテレーションを容易にする。具体的には,データ処理とモデル実行ライブラリを備えたテンソル計算エンジンであるMobile Neural Network (MNN)をベースとして,さまざまなMLタスクと並列タスク実行をサポートするために,改良されたPythonスレッドレベル仮想マシン(VM)を通じて公開される。 MNNの中核は、演算子分解と半自動探索の新しいメカニズムであり、数百のハードウェアバックエンドに対して数百の演算子を手動で最適化し、計算グラフのランタイム最適化で最適なバックエンドを素早く特定する作業負荷を劇的に削減する。データパイプラインはオンデバイスストリーム処理フレームワークを導入し、ソースでのユーザの振る舞いデータを処理できるようにする。デプロイメントプラットフォームは、効率的なプッシュ-then-pullメソッドでMLタスクをリリースし、複数粒度デプロイメントポリシーをサポートする。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。広範囲なマイクロベンチマークは、mnnとpythonスレッドレベルのvmのパフォーマンスも強調する。 walleはalibabaで大規模に運用されており、mnnはオープンソースであり、コミュニティに大きな影響を与えている。

関連論文リスト

Scalable and Cost-Efficient ML Inference: Parallel Batch Processing with Serverless Functions [0.36832029288386137]
本稿では、サーバレスアーキテクチャが大規模ML推論タスクを迅速かつ低コストで実現する方法について検討する。サーバレス並列処理は、モノリシックなアプローチと比較して、同じコストで、実行時間を95%以上削減できることを示した。
論文参考訳（メタデータ） (2025-01-30T15:47:55Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
TDML -- A Trustworthy Distributed Machine Learning Framework [7.302091381583343]
大規模モデル(LM)の急速な進歩は、計算資源の需要を増大させた。この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、可用性の限界によって悪化している。本稿では、リモートトレーナーのコーディネートとワークロードの検証にガイダンスを活用する、テキスト信頼に値する分散機械学習(TDML)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-10T03:22:28Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
MLOps: A Step Forward to Enterprise Machine Learning [0.0]
この研究は、MLOps、そのメリット、困難、進化、および重要な基盤技術に関する詳細なレビューを提示する。 MLOpsワークフローは、モデルとデータ探索とデプロイメントの両方に必要なさまざまなツールとともに、詳細に説明されている。この記事では、さまざまな成熟度の高い自動パイプラインを使用して、MLプロジェクトのエンドツーエンド生産にも光を当てます。
論文参考訳（メタデータ） (2023-05-27T20:44:14Z)
MAP: Memory-aware Automated Intra-op Parallel Training For Foundation Models [15.256207550970501]
我々は PyTorch 上に構築された MAP を紹介した。 MAPは既存の手法と比較して、任意のPyTorchモデルのメモリおよび計算統計を生成するのに使いやすいシンボリックプロファイラを提供する。
論文参考訳（メタデータ） (2023-02-06T07:22:49Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文参考訳（メタデータ） (2020-10-09T21:02:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。