論文の概要: EmbRace: Accelerating Sparse Communication for Distributed Training of
NLP Neural Networks
- arxiv url: http://arxiv.org/abs/2110.09132v1
- Date: Mon, 18 Oct 2021 09:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 20:55:36.802498
- Title: EmbRace: Accelerating Sparse Communication for Distributed Training of
NLP Neural Networks
- Title(参考訳): EmbRace: NLPニューラルネットワークの分散トレーニングのためのスパース通信の高速化
- Authors: Shengwei Li, Zhiquan Lai, Dongsheng Li, Xiangyu Ye, Yabo Duan
- Abstract要約: 分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。
我々はPyTorchとHorovodをベースとしたEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。
実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 8.093755829078253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed data-parallel training has been widely used for natural language
processing (NLP) neural network models. However, the embedding tables in NLP
models, holding a large portion of parameters and bringing dramatic sparsity in
communication, make it a big challenge to efficiently scale the distributed
training. Current distributed training frameworks mainly concentrate on dense
models but neglect the sparsity of NLP models, resulting in significant
communication overhead and relatively poor scalability.
In this paper, we propose EmbRace, an efficient communication framework
designed to accelerate sparse communication of distributed NLP model training.
EmbRace introduces Sparsity-aware Hybrid Communication, which combines AlltoAll
and AllReduce to optimize the communication overhead for sparse and dense data
in NLP models. EmbRace further introduces a 2D Communication Scheduling
approach to thoroughly overlap communication with computation by optimizing
model computation procedure, relaxing the dependency of embeddings, and
scheduling communication with a priority queue.
We implement EmbRace based on PyTorch and Horovod, and conduct comprehensive
evaluations with four representative NLP models on two high-performance GPU
clusters. Experimental results show that EmbRace achieves up to 30.66X speedup
on 16 GPUs clusters among four popular distributed training baselines.
- Abstract(参考訳): 分散データ並列トレーニングは自然言語処理(NLP)ニューラルネットワークモデルに広く利用されている。
しかし、NLPモデルの埋め込みテーブルは、パラメータの大部分を保持し、通信に劇的な空間性をもたらすため、分散トレーニングを効率的にスケールすることが大きな課題である。
現在の分散トレーニングフレームワークは、主に高密度モデルに重点を置いているが、NLPモデルの空間性を無視しているため、通信オーバーヘッドが大きくなり、スケーラビリティが比較的低い。
本稿では,分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。
EmbRaceは、AlltoAllとAllReduceを組み合わせて、NLPモデルにおける疎密なデータに対する通信オーバーヘッドを最適化する、スパシティ対応のハイブリッド通信を導入した。
embraceはさらに、モデル計算手順を最適化し、埋め込みの依存性を緩和し、優先キューで通信をスケジューリングすることで、計算とコミュニケーションを徹底的に重複させる2次元通信スケジューリングアプローチを導入している。
我々はPyTorchとHorovodに基づくEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。
実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。
関連論文リスト
- Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Communication-minimizing Asynchronous Tensor Parallelism [1.295259696641579]
本稿では,大規模マルチビリオンパラメータモデルの並列学習において,通信によるアイドル時間を最小化するために,テンソル計算を並列化する新しい3次元アプローチを提案する。
256 A100 GPU上の28Bパラメータでは、CNN3DはMegatron-LMと比較してトレーニング時間を60%近く改善している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - TAMUNA: Doubly Accelerated Federated Learning with Local Training,
Compression, and Partial Participation [6.843808986792989]
連合学習では、多くのユーザが協力してグローバルモデルを学ぶ。
分散最適化とフェデレート学習のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - DisPFL: Towards Communication-Efficient Personalized Federated Learning
via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。
Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。
本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文 参考訳(メタデータ) (2022-06-01T02:20:57Z) - Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters [39.85470606966918]
遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2022-05-19T11:10:14Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。