論文の概要: Distributed Convolutional Neural Network Training on Mobile and Edge Clusters
- arxiv url: http://arxiv.org/abs/2409.09083v1
- Date: Wed, 11 Sep 2024 02:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:18:52.040248
- Title: Distributed Convolutional Neural Network Training on Mobile and Edge Clusters
- Title(参考訳): モバイルクラスタとエッジクラスタを用いた分散畳み込みニューラルネットワークトレーニング
- Authors: Pranav Rama, Madison Threadgill, Andreas Gerstlauer,
- Abstract要約: 機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
- 参考スコア(独自算出の注目度): 0.9421843976231371
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The training of deep and/or convolutional neural networks (DNNs/CNNs) is traditionally done on servers with powerful CPUs and GPUs. Recent efforts have emerged to localize machine learning tasks fully on the edge. This brings advantages in reduced latency and increased privacy, but necessitates working with resource-constrained devices. Approaches for inference and training in mobile and edge devices based on pruning, quantization or incremental and transfer learning require trading off accuracy. Several works have explored distributing inference operations on mobile and edge clusters instead. However, there is limited literature on distributed training on the edge. Existing approaches all require a central, potentially powerful edge or cloud server for coordination or offloading. In this paper, we describe an approach for distributed CNN training exclusively on mobile and edge devices. Our approach is beneficial for the initial CNN layers that are feature map dominated. It is based on partitioning forward inference and back-propagation operations among devices through tiling and fusing to maximize locality and expose communication and memory-aware parallelism. We also introduce the concept of layer grouping to further fine-tune performance based on computation and communication trade-off. Results show that for a cluster of 2-6 quad-core Raspberry Pi3 devices, training of an object-detection CNN provides a 2x-15x speedup with respect to a single core and up to 8x reduction in memory usage per device, all without sacrificing accuracy. Grouping offers up to 1.5x speedup depending on the reference profile and batch size.
- Abstract(参考訳): ディープニューラルネットワークと/または畳み込みニューラルネットワーク(DNN/CNN)のトレーニングは、従来、強力なCPUとGPUを持つサーバ上で行われてきた。
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
プルーニング、量子化、インクリメンタルおよび転送学習に基づくモバイルおよびエッジデバイスにおける推論とトレーニングのためのアプローチは、精度のトレードオフを必要とする。
モバイルクラスタとエッジクラスタ上での推論操作の分散について、いくつかの研究がなされている。
しかし、エッジでの分散トレーニングに関する文献は限られている。
既存のアプローチはすべて、調整やオフロードのために、中央の、潜在的に強力なエッジまたはクラウドサーバを必要とする。
本稿では,モバイル端末とエッジ端末のみを対象とした分散CNNトレーニングのアプローチについて述べる。
私たちのアプローチは、機能マップが支配する初期のCNN層にとって有益です。
デバイス間のフォワード推論とバックプロパゲーション操作のパーティショニングに基づいて、局所性を最大化し、通信とメモリ認識並列性を公開する。
また、計算と通信のトレードオフに基づいて、さらに微調整性能を高めるために層分けの概念を導入する。
その結果、2-6個のクアッドコアRaspberry Pi3デバイスのクラスタでは、オブジェクト検出CNNのトレーニングは、単一のコアに対して2x-15倍のスピードアップを提供し、デバイス毎のメモリ使用量を最大8倍削減する。
Groupingは参照プロファイルとバッチサイズによって最大1.5倍のスピードアップを提供する。
関連論文リスト
- NeuroFlux: Memory-Efficient CNN Training Using Adaptive Local Learning [2.61072980439312]
リソース制約のあるモバイル環境とエッジ環境での畳み込みニューラルネットワーク(CNN)トレーニングは、オープンな課題である。
バックプロパゲーションは標準のアプローチだが、層間依存関係が強いため、GPUメモリが集中している。
本稿では,メモリ制限シナリオに適した新しいCNNトレーニングシステムであるNeuroFluxを紹介する。
論文 参考訳(メタデータ) (2024-02-21T21:33:07Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Distributed SLIDE: Enabling Training Large Neural Networks on Low
Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity [36.254527362066725]
本稿では,インターネット帯域幅の少ない小さなCPUクラスタ上で,大規模ニューラルネットワークのトレーニングを可能にする分散モデル並列トレーニングフレームワークを提案する。
通信の幅が狭くなれば、単純な4-16コアCPUノード上で10億近いパラメータモデルを訓練できることを示す。
論文 参考訳(メタデータ) (2022-01-29T21:37:34Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - perf4sight: A toolflow to model CNN training performance on Edge GPUs [16.61258138725983]
この研究は、CNNのトレーニングメモリフットプリントとレイテンシを予測する正確なモデルを開発するための自動化手法であるperf4sightを提案する。
フレームワークはPyTorch、ターゲットデバイスはNVIDIA Jetson TX2、それぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測する。
論文 参考訳(メタデータ) (2021-08-12T07:55:37Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。