論文の概要: Zen: Near-Optimal Sparse Tensor Synchronization for Distributed DNN
Training
- arxiv url: http://arxiv.org/abs/2309.13254v1
- Date: Sat, 23 Sep 2023 04:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:02:54.073186
- Title: Zen: Near-Optimal Sparse Tensor Synchronization for Distributed DNN
Training
- Title(参考訳): Zen:分散DNNトレーニングのためのニア最適スパーステンソル同期
- Authors: Zhuang Wang, Zhaozhuo Xu, Anshumali Shrivastava, T. S. Eugene Ng
- Abstract要約: 我々は、疎テンソルに対してほぼ実現可能な、Zenと呼ばれる勾配同期システムを開発する。
我々は,Zenが通信時間で最大5.09倍,トレーニングスループットで最大2.48倍のスピードアップを達成できることを実証した。
- 参考スコア(独自算出の注目度): 38.657812829861754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Distributed training is the de facto standard to scale up the training of
Deep Neural Networks (DNNs) with multiple GPUs. The performance bottleneck of
distributed training lies in communications for gradient synchronization.
Recently, practitioners have observed sparsity in gradient tensors, suggesting
the potential to reduce the traffic volume in communication and improve
end-to-end training efficiency. Yet, the optimal communication scheme to fully
leverage sparsity is still missing. This paper aims to address this gap. We
first analyze the characteristics of sparse tensors in popular DNN models to
understand the fundamentals of sparsity. We then systematically explore the
design space of communication schemes for sparse tensors and find the optimal
one. % We then find the optimal scheme based on the characteristics by
systematically exploring the design space. We also develop a gradient
synchronization system called Zen that approximately realizes it for sparse
tensors. We demonstrate that Zen can achieve up to 5.09x speedup in
communication time and up to 2.48x speedup in training throughput compared to
the state-of-the-art methods.
- Abstract(参考訳): 分散トレーニングは、ディープニューラルネットワーク(DNN)のトレーニングを複数のGPUでスケールアップするデファクトスタンダードである。
分散トレーニングのパフォーマンスボトルネックは、勾配同期のための通信にある。
近年,グラデーションテンソルのばらつきが観測され,通信における交通量削減とエンドツーエンドのトレーニング効率の向上が示唆されている。
しかし、空間性を完全に活用する最適な通信方式はいまだに欠けている。
本稿は,このギャップに対処することを目的とする。
まず,DNNモデルにおけるスパーステンソルの特性を解析し,空間性の基本を理解する。
次に,スパーステンソルのための通信方式の設計空間を体系的に探索し,最適点を求める。
% 設計空間を体系的に探索することで,その特性に基づく最適スキームを求める。
また,スパーステンソルに対してほぼそれを実現する,zenと呼ばれる勾配同期システムを開発した。
我々はzenが通信時間の最大5.9倍のスピードアップとトレーニングスループットの最大2.48倍のスピードアップを達成できることを実証する。
関連論文リスト
- Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Adaptive Message Quantization and Parallelization for Distributed
Full-graph GNN Training [6.557328947642343]
大きなグラフ上のグラフニューラルネットワーク(GNN)の分散フルグラフトレーニングは、帯域幅の要求と時間を要する。
本稿では,分散フルグラフ学習を高速化する効率的なGNNトレーニングシステムであるAdaQPを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:02:09Z) - Boosting Distributed Full-graph GNN Training with Asynchronous One-bit
Communication [23.883543151975136]
大規模なグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、高いメモリ要求と限られたGPUメモリとの競合のため、難しい。
本稿では,GNNにおける1ビット量子化計算手法を用いた分散GNN学習フレームワークSylvieを提案する。
詳細は、Sylvie氏は、送信したデータを定量化し、受信したデータを各レイヤの完全な精度の値に戻すための軽量な低ビットモジュールを提供する。
論文 参考訳(メタデータ) (2023-03-02T14:02:39Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。