論文の概要: dPRO: A Generic Profiling and Optimization System for Expediting
Distributed DNN Training
- arxiv url: http://arxiv.org/abs/2205.02473v1
- Date: Thu, 5 May 2022 07:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 02:39:33.249629
- Title: dPRO: A Generic Profiling and Optimization System for Expediting
Distributed DNN Training
- Title(参考訳): dpro:分散dnnトレーニングを迅速化する汎用プロファイリングおよび最適化システム
- Authors: Hanpeng Hu, Chenyu Jiang, Yuchen Zhong, Yanghua Peng, Chuan Wu, Yibo
Zhu, Haibin Lin, Chuanxiong Guo
- Abstract要約: 本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。
我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。
大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
- 参考スコア(独自算出の注目度): 12.413533491501548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed training using multiple devices (i.e., GPU servers) has been
widely adopted for learning DNN models over large datasets. However, the
performance of large-scale distributed training tends to be far from linear
speed-up in practice. Given the complexity of distributed systems, it is
challenging to identify the root cause(s) of inefficiency and exercise
effective performance optimizations when unexpected low training speed occurs.
To date, there exists no software tool which diagnoses performance issues and
helps expedite distributed DNN training, while the training can be run using
different machine learning frameworks. This paper proposes dPRO, a toolkit that
includes: (1) an efficient profiler that collects runtime traces of distributed
DNN training across multiple frameworks, especially fine-grained communication
traces, and constructs global data flow graphs including detailed communication
operations for accurate replay; (2) an optimizer that effectively identifies
performance bottlenecks and explores optimization strategies (from computation,
communication and memory aspects) for training acceleration. We implement dPRO
on multiple deep learning frameworks (PyTorch, TensorFlow, MXNet) and
representative communication schemes (AllReduce and Parameter Server
architecture). Extensive experiments show that dPRO predicts performance of
distributed training in various settings with<5% errors in most cases and finds
optimization strategies with up to87.1%speed-up over the baselines.
- Abstract(参考訳): 複数のデバイス(GPUサーバ)を使用した分散トレーニングは、大規模なデータセット上でDNNモデルを学習するために広く採用されている。
しかし、大規模分散トレーニングの性能は、実際には線形スピードアップには程遠い傾向にある。
分散システムの複雑さを考えると、非効率の根本原因を特定し、予期しない低いトレーニング速度が発生すると効果的なパフォーマンス最適化を実行することが困難である。
現在、パフォーマンスの問題を診断し、分散DNNトレーニングの迅速化を支援するソフトウェアツールは存在しないが、トレーニングは異なる機械学習フレームワークを使用して実行できる。
本稿では,(1)分散DNNトレーニングのランタイムトレースを複数のフレームワーク,特に細粒度通信トレースで収集し,高精度なリプレイのための詳細な通信操作を含むグローバルデータフローグラフを構築する効率的なプロファイラ,(2)パフォーマンスボトルネックを効果的に識別し,トレーニングアクセラレーションのための最適化戦略(計算,通信,メモリ面など)を探索する最適化器を提案する。
複数のディープラーニングフレームワーク(PyTorch,TensorFlow,MXNet)と代表通信スキーム(AllReduce,パラメータサーバアーキテクチャ)にdPROを実装した。
大規模な実験により、dPROは様々な環境での分散トレーニングのパフォーマンスを<5%のエラーで予測し、ベースラインを最大87.1%高速化する最適化戦略を見出した。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - HyperTune: Dynamic Hyperparameter Tuning For Efficient Distribution of
DNN Training Over Heterogeneous Systems [1.4680035572775532]
本稿では,計算記憶装置(CSD)におけるディープニューラルネットワーク(DNN)の分散トレーニングについて述べる。
CSDベースの分散アーキテクチャは、パフォーマンスのスケーラビリティ、レジリエンス、データプライバシといった面で、フェデレーション学習の利点を取り入れている。
また、既存の分散トレーニングフレームワークの欠点を改善するDNNトレーニングフレームワークであるStannisについても説明している。
論文 参考訳(メタデータ) (2020-07-16T02:12:44Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。