論文の概要: Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL
- arxiv url: http://arxiv.org/abs/2111.04867v1
- Date: Mon, 8 Nov 2021 23:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 16:01:11.650006
- Title: Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL
- Title(参考訳): TACCLを用いた異種ネットワークのための集合通信アルゴリズムの合成
- Authors: Aashaka Shah, Vijay Chidambaram, Meghan Cowan, Saeed Maleki, Madan
Musuvathi, Todd Mytkowicz, Jacob Nelson, Olli Saarikivi, Rachee Singh
- Abstract要約: 大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
- 参考スコア(独自算出の注目度): 1.5528708400965123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large ML models and datasets have necessitated the use of multi-GPU systems
for distributed model training. To harness the power offered by multi-GPU
systems, it is critical to eliminate bottlenecks in inter-GPU communication - a
problem made challenging by the heterogeneous nature of interconnects. In this
work, we present TACCL, a synthesizer for collective communication primitives
for large-scale multi-GPU systems. TACCL encodes a profiled topology and input
size into a synthesis problem to generate optimized communication algorithms.
TACCL is built on top of the standard NVIDIA Collective Communication Library
(NCCL), allowing it to be a drop-in replacement for GPU communication in
frameworks like PyTorch with minimal changes. TACCL generates algorithms for
communication primitives like Allgather, Alltoall, and Allreduce that are up to
$3\times$ faster than NCCL. Using TACCL's algorithms speeds up the end-to-end
training of an internal mixture of experts model by $17\%$. By decomposing the
optimization problem into parts and leveraging the symmetry in multi-GPU
topologies, TACCL synthesizes collectives for up to 80-GPUs in less than 3
minutes, at least two orders of magnitude faster than other synthesis-based
state-of-the-art collective communication libraries.
- Abstract(参考訳): 大規模なMLモデルとデータセットは、分散モデルのトレーニングにマルチGPUシステムを使用する必要がある。
マルチGPUシステムが提供するパワーを活用するためには、GPU間通信のボトルネックを取り除くことが重要である。
本研究では,大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLは標準的なNVIDIA Collective Communication Library(NCCL)上に構築されており、最小限の変更でPyTorchのようなフレームワークでのGPU通信の代替となる。
tacclは、allgather、alltoall、allreduceなどの通信プリミティブのためのアルゴリズムを生成し、ncclよりも最大3\times$高速である。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドのトレーニングを17.%$で高速化する。
TACCLは最適化問題を部品に分解し、マルチGPUトポロジの対称性を活用することにより、3分以内で80-GPUの集合を合成する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - TACOS: Topology-Aware Collective Algorithm Synthesizer for Distributed Machine Learning [9.196825913937472]
本稿では,トポロジ対応集団アルゴリズムを自動生成する自律合成器TACOSを提案する。
TACOSは非常に柔軟で、不均一な128-NPUシステムのAll-Reduceアルゴリズムを1.08秒で合成する。
最先端の合成装置よりも4.27倍の性能向上を実現している。
論文 参考訳(メタデータ) (2023-04-11T15:50:54Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。