論文の概要: Analysis of Distributed Deep Learning in the Cloud
- arxiv url: http://arxiv.org/abs/2208.14344v1
- Date: Tue, 30 Aug 2022 15:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:19:28.248054
- Title: Analysis of Distributed Deep Learning in the Cloud
- Title(参考訳): クラウドにおける分散ディープラーニングの解析
- Authors: Aakash Sharma, Vivek M. Bhasi, Sonali Singh, Rishabh Jain, Jashwant
Raj Gunasekaran, Subrata Mitra, Mahmut Taylan Kandemir, George Kesidis, Chita
R. Das
- Abstract要約: 本研究では,分散ディープラーニング(DDL)プロファイラを導入し,パブリッククラウド上で実行中のDDLが抱えるさまざまな実行"ストール"を判定する。
通信ストールとネットワークストールの2種類の通信ストールを推定する。
プロファイラを使用して一般的なDNNモデルをトレーニングして、さまざまなAWS GPUインスタンスを特徴付け、ユーザが情報的な決定を下す上でのメリットと欠点をリストアップします。
- 参考スコア(独自算出の注目度): 17.91202259637393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to resolve this problem by introducing a comprehensive distributed
deep learning (DDL) profiler, which can determine the various execution
"stalls" that DDL suffers from while running on a public cloud. We have
implemented the profiler by extending prior work to additionally estimate two
types of communication stalls - interconnect and network stalls. We train
popular DNN models using the profiler to characterize various AWS GPU instances
and list their advantages and shortcomings for users to make an informed
decision. We observe that the more expensive GPU instances may not be the most
performant for all DNN models and AWS may sub-optimally allocate hardware
interconnect resources. Specifically, the intra-machine interconnect can
introduce communication overheads up to 90% of DNN training time and
network-connected instances can suffer from up to 5x slowdown compared to
training on a single instance. Further, we model the impact of DNN macroscopic
features such as the number of layers and the number of gradients on
communication stalls. Finally, we propose a measurement-based recommendation
model for users to lower their public cloud monetary costs for DDL, given a
time budget.
- Abstract(参考訳): 本研究では,DDL がパブリッククラウド上で実行している際の様々な実行 "ストール" を判定できる総合分散ディープラーニング (DDL) プロファイラを導入することで,この問題を解決することを目的とする。
我々は,ネットワークと相互接続の2種類の通信ストールを推定するために,事前作業を拡張してプロファイラを実装した。
プロファイラを使用して一般的なDNNモデルをトレーニングして、さまざまなAWS GPUインスタンスを特徴付け、ユーザが情報的な決定を下すためのメリットと欠点をリストアップします。
より高価なGPUインスタンスは、すべてのDNNモデルにとって最もパフォーマンスが良くない可能性があり、AWSは、ハードウェア相互接続リソースを亜最適に割り当てる可能性がある。
具体的には、マシン内相互接続は、DNNトレーニング時間の最大90%の通信オーバーヘッドを導入でき、ネットワーク接続インスタンスは、単一のインスタンスでのトレーニングと比較して最大5倍の遅延を被る可能性がある。
さらに,層数や勾配数といったdnnのマクロな特徴が通信失速に与える影響をモデル化した。
最後に,ユーザがDDLの公開クラウド金融コストを抑えるための計測ベースのレコメンデーションモデルを提案する。
関連論文リスト
- MatchNAS: Optimizing Edge AI in Sparse-Label Data Contexts via
Automating Deep Neural Network Porting for Mobile Deployment [54.77943671991863]
MatchNASはDeep Neural Networksをモバイルデバイスに移植するための新しいスキームである。
ラベル付きデータと非ラベル付きデータの両方を用いて、大規模なネットワークファミリを最適化する。
そして、さまざまなハードウェアプラットフォーム用に調整されたネットワークを自動的に検索する。
論文 参考訳(メタデータ) (2024-02-21T04:43:12Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Enabling Deep Learning on Edge Devices [2.741266294612776]
ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、強化学習など、多くの異なる認識タスクに成功している。
高性能DNNは資源消費に大きく依存している。
近年、AR/VR、モバイルアシスタント、モノのインターネットなど、新たなインテリジェントなアプリケーションでは、リソース制約のあるエッジデバイスにDNNをデプロイする必要があります。
この論文では,エッジデバイスへの推論,エッジデバイスへの適応,エッジデバイスへの学習,エッジサーバシステムという4つのエッジインテリジェンスシナリオについて検討した。
論文 参考訳(メタデータ) (2022-10-06T20:52:57Z) - Decentralized Low-Latency Collaborative Inference via Ensembles on the
Edge [28.61344039233783]
本稿では,複数のユーザが推論中に協力して精度を向上させることで,エッジ上でのディープニューラルネットワーク(DNN)の適用を容易にすることを提案する。
私たちのメカニズムは、エッジアンサンブル(em edge ensembles)と呼ばれ、各デバイスに様々な予測子を持ち、推論中にモデルのアンサンブルを形成する。
エッジアンサンブルによって引き起こされる遅延を分析し、その性能改善は、通信ネットワーク上の一般的な前提の下で、わずかな追加遅延のコストで生じることを示す。
論文 参考訳(メタデータ) (2022-06-07T10:24:20Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。