論文の概要: Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks
- arxiv url: http://arxiv.org/abs/2107.06533v1
- Date: Wed, 14 Jul 2021 08:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:15:01.497767
- Title: Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks
- Title(参考訳): 計算・通信タスクのスマート並列性による分散K-FACの高速化
- Authors: Shaohuai Shi, Lin Zhang, Bo Li
- Abstract要約: Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
- 参考スコア(独自算出の注目度): 13.552262050816616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed training with synchronous stochastic gradient descent (SGD) on
GPU clusters has been widely used to accelerate the training process of deep
models. However, SGD only utilizes the first-order gradient in model parameter
updates, which may take days or weeks. Recent studies have successfully
exploited approximate second-order information to speed up the training
process, in which the Kronecker-Factored Approximate Curvature (KFAC) emerges
as one of the most efficient approximation algorithms for training deep models.
Yet, when leveraging GPU clusters to train models with distributed KFAC
(D-KFAC), it incurs extensive computation as well as introduces extra
communications during each iteration. In this work, we propose D-KFAC
(SPD-KFAC) with smart parallelism of computing and communication tasks to
reduce the iteration time. Specifically, 1) we first characterize the
performance bottlenecks of D-KFAC, 2) we design and implement a pipelining
mechanism for Kronecker factors computation and communication with dynamic
tensor fusion, and 3) we develop a load balancing placement for inverting
multiple matrices on GPU clusters. We conduct real-world experiments on a
64-GPU cluster with 100Gb/s InfiniBand interconnect. Experimental results show
that our proposed SPD-KFAC training scheme can achieve 10%-35% improvement over
state-of-the-art algorithms.
- Abstract(参考訳): GPUクラスタ上での同期確率勾配降下(SGD)による分散トレーニングは、ディープモデルのトレーニングプロセスの高速化に広く利用されている。
しかし、SGDはモデルパラメータ更新の1次勾配のみを利用しており、数日や数週間かかる可能性がある。
近年の研究では、Kronecker-Factored Approximate Curvature (KFAC) が深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つとして現れる訓練過程を高速化するために、近似二階情報を利用することに成功した。
しかし、GPUクラスタを活用して分散KFAC(D-KFAC)でモデルをトレーニングする場合は、大規模な計算に加えて、イテレーション毎に追加の通信が導入される。
本研究では,コンピュータと通信タスクのスマート並列性を備えたd-kfac(spd-kfac)を提案する。
具体的には,1) D-KFACの性能ボトルネック,2) Kronecker因子の計算と動的テンソル融合による通信のためのパイプライニング機構の設計と実装,3)GPUクラスタ上で複数の行列を反転させる負荷分散配置を開発する。
我々は,100Gb/s InfiniBand相互接続64GPUクラスタ上で実世界の実験を行う。
実験結果から,提案したSPD-KFACトレーニングスキームは最先端アルゴリズムよりも10%-35%改善できることがわかった。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - Scalable K-FAC Training for Deep Neural Networks with Distributed
Preconditioning [19.04755792575149]
本稿では,深層ニューラルネットワーク(DNN)トレーニングのための分散プレコンディショニング手法DP-KFACを提案する。
DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減する。
論文 参考訳(メタデータ) (2022-06-30T09:22:25Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。