論文の概要: Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2408.08015v1
- Date: Thu, 15 Aug 2024 08:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:36:26.628177
- Title: Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices
- Title(参考訳): Asteroid: 異種エッジデバイスを用いた協調DNNトレーニングのための資源効率の良いハイブリッドパイプライン並列性
- Authors: Shengyuan Ye, Liekang Zeng, Xiaowen Chu, Guoliang Xing, Xu Chen,
- Abstract要約: デバイス上でのディープニューラルネットワーク(DNN)トレーニングは、エッジでのプライバシ保護機械学習において不可欠であると認識されている。
Asteroidは異種エッジデバイスにまたがる資源壁を破り、効率的なモデルトレーニングアクセラレーションを実現する分散エッジトレーニングシステムである。
- 参考スコア(独自算出の注目度): 13.24437638911459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device Deep Neural Network (DNN) training has been recognized as crucial for privacy-preserving machine learning at the edge. However, the intensive training workload and limited onboard computing resources pose significant challenges to the availability and efficiency of model training. While existing works address these challenges through native resource management optimization, we instead leverage our observation that edge environments usually comprise a rich set of accompanying trusted edge devices with idle resources beyond a single terminal. We propose Asteroid, a distributed edge training system that breaks the resource walls across heterogeneous edge devices for efficient model training acceleration. Asteroid adopts a hybrid pipeline parallelism to orchestrate distributed training, along with a judicious parallelism planning for maximizing throughput under certain resource constraints. Furthermore, a fault-tolerant yet lightweight pipeline replay mechanism is developed to tame the device-level dynamics for training robustness and performance stability. We implement Asteroid on heterogeneous edge devices with both vision and language models, demonstrating up to 12.2x faster training than conventional parallelism methods and 2.1x faster than state-of-the-art hybrid parallelism methods through evaluations. Furthermore, Asteroid can recover training pipeline 14x faster than baseline methods while preserving comparable throughput despite unexpected device exiting and failure.
- Abstract(参考訳): デバイス上でのディープニューラルネットワーク(DNN)トレーニングは、エッジでのプライバシ保護機械学習において不可欠であると認識されている。
しかし、集中的なトレーニングワークロードと限られたオンボードコンピューティングリソースは、モデルトレーニングの可用性と効率に重大な課題をもたらす。
既存の作業では、ネイティブリソース管理の最適化を通じてこれらの課題に対処していますが、エッジ環境は通常、単一の端末を超えたアイドルリソースを備えた信頼できるエッジデバイスのリッチなセットで構成されています。
Asteroidは異種エッジデバイスにまたがる資源壁を破り、効率的なモデルトレーニングアクセラレーションを実現する分散エッジトレーニングシステムである。
Asteroidは、分散トレーニングをオーケストレーションするためにハイブリッドパイプライン並列性を採用し、特定のリソース制約下でスループットを最大化するための司法並列性を計画している。
さらに、耐障害性がありながら軽量なパイプライン再生機構が開発され、堅牢性と性能安定性をトレーニングするためのデバイスレベルのダイナミクスが実現された。
我々は、視覚モデルと言語モデルの両方で異種エッジデバイスにAsteroidを実装し、従来の並列化法よりも最大12.2倍、最先端のハイブリッド並列化法より2.1倍の高速なトレーニングを評価を通して実施した。
さらに、Asteroidは、予想外のデバイス離脱と障害にもかかわらず、同等のスループットを維持しながら、ベースラインメソッドよりも14倍早くトレーニングパイプラインを回復することができる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Heterogeneity-Aware Resource Allocation and Topology Design for Hierarchical Federated Edge Learning [9.900317349372383]
Federated Learning (FL)は、モバイルデバイス上で機械学習モデルをトレーニングするためのプライバシー保護フレームワークを提供する。
従来のFLアルゴリズム、例えばFedAvgはこれらのデバイスに重い通信負荷を課す。
エッジデバイスをエッジサーバに接続し,エッジサーバをピアツーピア(P2P)エッジバックホールを介して相互接続する2層HFELシステムを提案する。
我々の目標は、戦略的資源配分とトポロジ設計により、HFELシステムの訓練効率を向上させることである。
論文 参考訳(メタデータ) (2024-09-29T01:48:04Z) - Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks [69.2642802272367]
スパイクニューラルネットワーク(SNN)を用いた脳誘発ニューロモルフィックコンピューティングは、有望なエネルギー効率の計算手法である。
最近の手法では、空間的および時間的バックプロパゲーション(BP)を利用しており、ニューロモルフィックの性質に固執していない。
オンライン擬似ゼロオーダートレーニング(OPZO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T12:09:00Z) - Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference [19.60655813679882]
トランスフォーマーベースのモデルは、エッジに多数の強力なインテリジェントなアプリケーションをアンロックした。
従来のデプロイメントアプローチでは、推論ワークロードをリモートクラウドサーバにオフロードする。
我々は、異種エッジデバイスにまたがるリソース壁を壊す、協調的なエッジAIシステムであるGalaxyを提案する。
論文 参考訳(メタデータ) (2024-05-27T15:01:04Z) - Implementation of Big AI Models for Wireless Networks with Collaborative Edge Computing [10.524645516703643]
大きなAIモデルのトレーニングは、エッジデバイスに重大な課題をもたらす。
従来のアプローチでは、トレーニングデータを集約して、集中的なトレーニングのためにリモートクラウドに送信するのが一般的だった。
我々は、信頼されたエッジデバイス群をリソースプールとしてオーケストレーションする新しいトレーニングメカニズムである協調エッジトレーニングを提案する。
論文 参考訳(メタデータ) (2024-04-27T03:09:39Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices [21.513786638743234]
FTPipeHDは、異種デバイス間でディープラーニングモデルをトレーニングする新しいフレームワークである。
FTPipeHDは、最高のデバイスの計算能力が最悪のものより10倍大きい場合、アートメソッドの状態よりもトレーニングで6.8倍高速であることが示されている。
論文 参考訳(メタデータ) (2021-10-06T14:00:22Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。