論文の概要: FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2110.02781v1
- Date: Wed, 6 Oct 2021 14:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:11:41.904825
- Title: FTPipeHD: A Fault-Tolerant Pipeline-Parallel Distributed Training
Framework for Heterogeneous Edge Devices
- Title(参考訳): FTPipeHD: 異種エッジデバイスのためのフォールトトレラントパイプライン並列分散トレーニングフレームワーク
- Authors: Yuhao Chen, Qianqian Yang, Shibo He, Zhiguo Shi, Jiming Chen
- Abstract要約: FTPipeHDは、異種デバイス間でディープラーニングモデルをトレーニングする新しいフレームワークである。
FTPipeHDは、最高のデバイスの計算能力が最悪のものより10倍大きい場合、アートメソッドの状態よりもトレーニングで6.8倍高速であることが示されている。
- 参考スコア(独自算出の注目度): 21.513786638743234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increased penetration and proliferation of Internet of Things (IoT)
devices, there is a growing trend towards distributing the power of deep
learning (DL) across edge devices rather than centralizing it in the cloud.
This development enables better privacy preservation, real-time responses, and
user-specific models. To deploy deep and complex models to edge devices with
limited resources, model partitioning of deep neural networks (DNN) model is
necessary, and has been widely studied. However, most of the existing
literature only considers distributing the inference model while still relying
centralized cloud infrastructure to generate this model through training. In
this paper, we propose FTPipeHD, a novel DNN training framework that trains DNN
models across distributed heterogeneous devices with fault tolerance mechanism.
To accelerate the training with time-varying computing power of each device, we
optimize the partition points dynamically according to real-time computing
capacities. We also propose a novel weight redistribution approach that
replicates the weights to both the neighboring nodes and the central node
periodically, which combats the failure of multiple devices during training
while incurring limited communication cost. Our numerical results demonstrate
that FTPipeHD is 6.8x faster in training than the state of the art method when
the computing capacity of the best device is 10x greater than the worst one. It
is also shown that the proposed method is able to accelerate the training even
with the existence of device failures.
- Abstract(参考訳): モノのインターネット(IoT)デバイスの普及と普及に伴い、クラウドに集中するのではなく、エッジデバイスにディープラーニング(DL)のパワーを分散する傾向が高まっている。
この開発により、プライバシ保護、リアルタイム応答、ユーザ固有のモデルが改善される。
資源が限られているエッジデバイスに深層および複雑なモデルをデプロイするには、ディープニューラルネットワーク(DNN)モデルのモデル分割が必要であり、広く研究されている。
しかしながら、既存の文献のほとんどは推論モデルを配布することのみを考慮し、トレーニングを通じてこのモデルを生成するために集中型クラウドインフラストラクチャに依存している。
本稿では,分散異種デバイス間のdnnモデルをフォールトトレランス機構でトレーニングする,新しいdnnトレーニングフレームワークであるftpipehdを提案する。
各装置の時間変化計算能力でトレーニングを加速するため,リアルタイム計算能力に応じて分割点を動的に最適化する。
また、隣接するノードと中央ノードの両方に定期的に重みを複製する新しい重み再分配手法を提案する。
その結果,最高のデバイスの計算能力が最悪のものより10倍大きい場合,ftpipehdのトレーニング速度はart法より6.8倍速いことがわかった。
また,提案手法は,デバイス故障の有無に関わらず,トレーニングを高速化できることを示した。
関連論文リスト
- Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization [11.44696439060875]
EF-Trainは、チャネルレベルの並列性に基づく畳み込みカーネルを統一した、効率的なDNNトレーニングアクセラレータである。
リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現することができる。
我々の設計ではスループットとエネルギー効率の点で46.99GFLOPSと6.09GFLOPS/Wを実現している。
論文 参考訳(メタデータ) (2022-02-18T18:27:42Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed
Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。
提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。
非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2021-02-10T19:41:11Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。