論文の概要: EmbRace: Accelerating Sparse Communication for Distributed Training of
NLP Neural Networks
- arxiv url: http://arxiv.org/abs/2110.09132v1
- Date: Mon, 18 Oct 2021 09:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 20:55:36.802498
- Title: EmbRace: Accelerating Sparse Communication for Distributed Training of
NLP Neural Networks
- Title(参考訳): EmbRace: NLPニューラルネットワークの分散トレーニングのためのスパース通信の高速化
- Authors: Shengwei Li, Zhiquan Lai, Dongsheng Li, Xiangyu Ye, Yabo Duan
- Abstract要約: 分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。
我々はPyTorchとHorovodをベースとしたEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。
実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 8.093755829078253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed data-parallel training has been widely used for natural language
processing (NLP) neural network models. However, the embedding tables in NLP
models, holding a large portion of parameters and bringing dramatic sparsity in
communication, make it a big challenge to efficiently scale the distributed
training. Current distributed training frameworks mainly concentrate on dense
models but neglect the sparsity of NLP models, resulting in significant
communication overhead and relatively poor scalability.
In this paper, we propose EmbRace, an efficient communication framework
designed to accelerate sparse communication of distributed NLP model training.
EmbRace introduces Sparsity-aware Hybrid Communication, which combines AlltoAll
and AllReduce to optimize the communication overhead for sparse and dense data
in NLP models. EmbRace further introduces a 2D Communication Scheduling
approach to thoroughly overlap communication with computation by optimizing
model computation procedure, relaxing the dependency of embeddings, and
scheduling communication with a priority queue.
We implement EmbRace based on PyTorch and Horovod, and conduct comprehensive
evaluations with four representative NLP models on two high-performance GPU
clusters. Experimental results show that EmbRace achieves up to 30.66X speedup
on 16 GPUs clusters among four popular distributed training baselines.
- Abstract(参考訳): 分散データ並列トレーニングは自然言語処理(NLP)ニューラルネットワークモデルに広く利用されている。
しかし、NLPモデルの埋め込みテーブルは、パラメータの大部分を保持し、通信に劇的な空間性をもたらすため、分散トレーニングを効率的にスケールすることが大きな課題である。
現在の分散トレーニングフレームワークは、主に高密度モデルに重点を置いているが、NLPモデルの空間性を無視しているため、通信オーバーヘッドが大きくなり、スケーラビリティが比較的低い。
本稿では,分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。
EmbRaceは、AlltoAllとAllReduceを組み合わせて、NLPモデルにおける疎密なデータに対する通信オーバーヘッドを最適化する、スパシティ対応のハイブリッド通信を導入した。
embraceはさらに、モデル計算手順を最適化し、埋め込みの依存性を緩和し、優先キューで通信をスケジューリングすることで、計算とコミュニケーションを徹底的に重複させる2次元通信スケジューリングアプローチを導入している。
我々はPyTorchとHorovodに基づくEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。
実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。
関連論文リスト
- Local Superior Soups: A Catalyst for Model Merging in Cross-Silo Federated Learning [33.88701368538447]
我々は「ローカル・スーパー・スープ」と呼ばれる革新的モデルに基づくローカル・トレーニング手法を提案する。
提案手法は, 異なるクライアント間でのローカルトレーニングを強化し, 接続された低損失盆地の探索を奨励する。
広範に使われているFLデータセットにまたがって,その有効性と効率を実証した。
論文 参考訳(メタデータ) (2024-10-31T06:20:17Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - DisPFL: Towards Communication-Efficient Personalized Federated Learning
via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。
Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。
本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文 参考訳(メタデータ) (2022-06-01T02:20:57Z) - Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters [39.85470606966918]
遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2022-05-19T11:10:14Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。