論文の概要: Zen: Near-Optimal Sparse Tensor Synchronization for Distributed DNN
Training
- arxiv url: http://arxiv.org/abs/2309.13254v1
- Date: Sat, 23 Sep 2023 04:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:02:54.073186
- Title: Zen: Near-Optimal Sparse Tensor Synchronization for Distributed DNN
Training
- Title(参考訳): Zen:分散DNNトレーニングのためのニア最適スパーステンソル同期
- Authors: Zhuang Wang, Zhaozhuo Xu, Anshumali Shrivastava, T. S. Eugene Ng
- Abstract要約: 我々は、疎テンソルに対してほぼ実現可能な、Zenと呼ばれる勾配同期システムを開発する。
我々は,Zenが通信時間で最大5.09倍,トレーニングスループットで最大2.48倍のスピードアップを達成できることを実証した。
- 参考スコア(独自算出の注目度): 38.657812829861754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Distributed training is the de facto standard to scale up the training of
Deep Neural Networks (DNNs) with multiple GPUs. The performance bottleneck of
distributed training lies in communications for gradient synchronization.
Recently, practitioners have observed sparsity in gradient tensors, suggesting
the potential to reduce the traffic volume in communication and improve
end-to-end training efficiency. Yet, the optimal communication scheme to fully
leverage sparsity is still missing. This paper aims to address this gap. We
first analyze the characteristics of sparse tensors in popular DNN models to
understand the fundamentals of sparsity. We then systematically explore the
design space of communication schemes for sparse tensors and find the optimal
one. % We then find the optimal scheme based on the characteristics by
systematically exploring the design space. We also develop a gradient
synchronization system called Zen that approximately realizes it for sparse
tensors. We demonstrate that Zen can achieve up to 5.09x speedup in
communication time and up to 2.48x speedup in training throughput compared to
the state-of-the-art methods.
- Abstract(参考訳): 分散トレーニングは、ディープニューラルネットワーク(DNN)のトレーニングを複数のGPUでスケールアップするデファクトスタンダードである。
分散トレーニングのパフォーマンスボトルネックは、勾配同期のための通信にある。
近年,グラデーションテンソルのばらつきが観測され,通信における交通量削減とエンドツーエンドのトレーニング効率の向上が示唆されている。
しかし、空間性を完全に活用する最適な通信方式はいまだに欠けている。
本稿は,このギャップに対処することを目的とする。
まず,DNNモデルにおけるスパーステンソルの特性を解析し,空間性の基本を理解する。
次に,スパーステンソルのための通信方式の設計空間を体系的に探索し,最適点を求める。
% 設計空間を体系的に探索することで,その特性に基づく最適スキームを求める。
また,スパーステンソルに対してほぼそれを実現する,zenと呼ばれる勾配同期システムを開発した。
我々はzenが通信時間の最大5.9倍のスピードアップとトレーニングスループットの最大2.48倍のスピードアップを達成できることを実証する。
関連論文リスト
- An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける最先端の性能を得る。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高度に構造化されたスパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は,CGテンソル製品用のGPUスパースカーネルジェネレータを導入し,既存のオープンソース実装とクローズドソース実装の大幅な高速化を実現した。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - Coarse-To-Fine Tensor Trains for Compact Visual Representations [19.216356079910533]
「延長アップサンプリングトレイン」は粗い方法でテンソルトレイン表現を学習する新しい方法である。
我々は,(1)圧縮,(2)の3つの軸に沿った表現を評価する。
denoising 機能と (3) 画像補完機能。
論文 参考訳(メタデータ) (2024-06-06T17:59:23Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep
Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。
DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。
大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文 参考訳(メタデータ) (2021-02-05T11:31:24Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z) - ShadowSync: Performing Synchronization in the Background for Highly
Scalable Distributed Training [10.73956838502053]
現代のリコメンデーションシステムトレーニングに適した分散フレームワークであるShadowsyncを紹介します。
トレーニングプロセスの一部として同期が行われる以前の作業とは対照的に、Shadowsyncは同期をトレーニングから分離し、バックグラウンドで実行する。
論文 参考訳(メタデータ) (2020-03-07T00:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。