Fugu-MT 論文翻訳(概要): dPRO: A Generic Profiling and Optimization System for Expediting Distributed DNN Training

論文の概要: dPRO: A Generic Profiling and Optimization System for Expediting Distributed DNN Training

arxiv url: http://arxiv.org/abs/2205.02473v1
Date: Thu, 5 May 2022 07:15:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-07 02:39:33.249629
Title: dPRO: A Generic Profiling and Optimization System for Expediting Distributed DNN Training
Title（参考訳）: dpro:分散dnnトレーニングを迅速化する汎用プロファイリングおよび最適化システム
Authors: Hanpeng Hu, Chenyu Jiang, Yuchen Zhong, Yanghua Peng, Chuan Wu, Yibo Zhu, Haibin Lin, Chuanxiong Guo
Abstract要約: 本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
参考スコア（独自算出の注目度）: 12.413533491501548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distributed training using multiple devices (i.e., GPU servers) has been widely adopted for learning DNN models over large datasets. However, the performance of large-scale distributed training tends to be far from linear speed-up in practice. Given the complexity of distributed systems, it is challenging to identify the root cause(s) of inefficiency and exercise effective performance optimizations when unexpected low training speed occurs. To date, there exists no software tool which diagnoses performance issues and helps expedite distributed DNN training, while the training can be run using different machine learning frameworks. This paper proposes dPRO, a toolkit that includes: (1) an efficient profiler that collects runtime traces of distributed DNN training across multiple frameworks, especially fine-grained communication traces, and constructs global data flow graphs including detailed communication operations for accurate replay; (2) an optimizer that effectively identifies performance bottlenecks and explores optimization strategies (from computation, communication and memory aspects) for training acceleration. We implement dPRO on multiple deep learning frameworks (PyTorch, TensorFlow, MXNet) and representative communication schemes (AllReduce and Parameter Server architecture). Extensive experiments show that dPRO predicts performance of distributed training in various settings with<5% errors in most cases and finds optimization strategies with up to87.1%speed-up over the baselines.
Abstract（参考訳）: 複数のデバイス(GPUサーバ)を使用した分散トレーニングは、大規模なデータセット上でDNNモデルを学習するために広く採用されている。しかし、大規模分散トレーニングの性能は、実際には線形スピードアップには程遠い傾向にある。分散システムの複雑さを考えると、非効率の根本原因を特定し、予期しない低いトレーニング速度が発生すると効果的なパフォーマンス最適化を実行することが困難である。現在、パフォーマンスの問題を診断し、分散DNNトレーニングの迅速化を支援するソフトウェアツールは存在しないが、トレーニングは異なる機械学習フレームワークを使用して実行できる。本稿では,(1)分散DNNトレーニングのランタイムトレースを複数のフレームワーク,特に細粒度通信トレースで収集し,高精度なリプレイのための詳細な通信操作を含むグローバルデータフローグラフを構築する効率的なプロファイラ,(2)パフォーマンスボトルネックを効果的に識別し,トレーニングアクセラレーションのための最適化戦略(計算,通信,メモリ面など)を探索する最適化器を提案する。複数のディープラーニングフレームワーク(PyTorch,TensorFlow,MXNet)と代表通信スキーム(AllReduce,パラメータサーバアーキテクチャ)にdPROを実装した。大規模な実験により、dPROは様々な環境での分散トレーニングのパフォーマンスを<5%のエラーで予測し、ベースラインを最大87.1%高速化する最適化戦略を見出した。

関連論文リスト

Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime [9.749891245059596]
より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
論文参考訳（メタデータ） (2025-06-30T17:58:30Z)
MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文参考訳（メタデータ） (2024-12-11T11:13:43Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。 RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文参考訳（メタデータ） (2023-04-10T17:22:12Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Distributed Adversarial Training to Robustify Deep Neural Networks at Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-13T15:39:43Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)
HyperTune: Dynamic Hyperparameter Tuning For Efficient Distribution of DNN Training Over Heterogeneous Systems [1.4680035572775532]
本稿では,計算記憶装置(CSD)におけるディープニューラルネットワーク(DNN)の分散トレーニングについて述べる。 CSDベースの分散アーキテクチャは、パフォーマンスのスケーラビリティ、レジリエンス、データプライバシといった面で、フェデレーション学習の利点を取り入れている。また、既存の分散トレーニングフレームワークの欠点を改善するDNNトレーニングフレームワークであるStannisについても説明している。
論文参考訳（メタデータ） (2020-07-16T02:12:44Z)
Automated Design Space Exploration for optimised Deployment of DNN on Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文参考訳（メタデータ） (2020-06-09T11:00:06Z)
Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文参考訳（メタデータ） (2020-03-25T10:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。