Fugu-MT 論文翻訳(概要): EmbRace: Accelerating Sparse Communication for Distributed Training of NLP Neural Networks

論文の概要: EmbRace: Accelerating Sparse Communication for Distributed Training of NLP Neural Networks

arxiv url: http://arxiv.org/abs/2110.09132v1
Date: Mon, 18 Oct 2021 09:35:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 20:55:36.802498
Title: EmbRace: Accelerating Sparse Communication for Distributed Training of NLP Neural Networks
Title（参考訳）: EmbRace: NLPニューラルネットワークの分散トレーニングのためのスパース通信の高速化
Authors: Shengwei Li, Zhiquan Lai, Dongsheng Li, Xiangyu Ye, Yabo Duan
Abstract要約: 分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。我々はPyTorchとHorovodをベースとしたEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。
参考スコア（独自算出の注目度）: 8.093755829078253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed data-parallel training has been widely used for natural language processing (NLP) neural network models. However, the embedding tables in NLP models, holding a large portion of parameters and bringing dramatic sparsity in communication, make it a big challenge to efficiently scale the distributed training. Current distributed training frameworks mainly concentrate on dense models but neglect the sparsity of NLP models, resulting in significant communication overhead and relatively poor scalability. In this paper, we propose EmbRace, an efficient communication framework designed to accelerate sparse communication of distributed NLP model training. EmbRace introduces Sparsity-aware Hybrid Communication, which combines AlltoAll and AllReduce to optimize the communication overhead for sparse and dense data in NLP models. EmbRace further introduces a 2D Communication Scheduling approach to thoroughly overlap communication with computation by optimizing model computation procedure, relaxing the dependency of embeddings, and scheduling communication with a priority queue. We implement EmbRace based on PyTorch and Horovod, and conduct comprehensive evaluations with four representative NLP models on two high-performance GPU clusters. Experimental results show that EmbRace achieves up to 30.66X speedup on 16 GPUs clusters among four popular distributed training baselines.
Abstract（参考訳）: 分散データ並列トレーニングは自然言語処理(NLP)ニューラルネットワークモデルに広く利用されている。しかし、NLPモデルの埋め込みテーブルは、パラメータの大部分を保持し、通信に劇的な空間性をもたらすため、分散トレーニングを効率的にスケールすることが大きな課題である。現在の分散トレーニングフレームワークは、主に高密度モデルに重点を置いているが、NLPモデルの空間性を無視しているため、通信オーバーヘッドが大きくなり、スケーラビリティが比較的低い。本稿では,分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。 EmbRaceは、AlltoAllとAllReduceを組み合わせて、NLPモデルにおける疎密なデータに対する通信オーバーヘッドを最適化する、スパシティ対応のハイブリッド通信を導入した。 embraceはさらに、モデル計算手順を最適化し、埋め込みの依存性を緩和し、優先キューで通信をスケジューリングすることで、計算とコミュニケーションを徹底的に重複させる2次元通信スケジューリングアプローチを導入している。我々はPyTorchとHorovodに基づくEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。

関連論文リスト

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster [7.597885871452736]
そこで我々は,低コミュニケーションの大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案する。パイプライン並列性と、通信とローカルトレーニングのデュアルステップ遅延オーバーラップと、適応的なグラディエント圧縮スキームを組み合わせる。本研究では,DiLoCoXがモデル収束の無視可能な劣化を維持しつつ,分散トレーニングにおいて357倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2025-06-26T13:45:04Z)
Sparsity-Aware Communication for Distributed Graph Neural Network Training [0.41942958779358674]
グラフニューラルネットワーク(GNN)は、グラフデータの埋め込みや分類を学ぶための計算効率の良い手法である。 GNNトレーニングは計算強度が低く、通信コストがスケーラビリティのボトルネックとなる。我々は3つの新しいアプローチでGNN訓練における通信ボトルネックに対処する空間性認識アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-07T01:53:14Z)
ProFe: Communication-Efficient Decentralized Federated Learning via Distillation and Prototypes [3.7340128675975173]
分散フェデレーションラーニング(DFL)は、協力的かつプライバシー保護的な方法でモデルをトレーニングする。本稿では,知識蒸留,プロトタイプ学習,量子化技術を組み合わせたDFLのための新しい通信最適化アルゴリズムであるProFeを紹介する。
論文参考訳（メタデータ） (2024-12-15T14:49:29Z)
Local Superior Soups: A Catalyst for Model Merging in Cross-Silo Federated Learning [33.88701368538447]
我々は「ローカル・スーパー・スープ」と呼ばれる革新的モデルに基づくローカル・トレーニング手法を提案する。提案手法は, 異なるクライアント間でのローカルトレーニングを強化し, 接続された低損失盆地の探索を奨励する。広範に使われているFLデータセットにまたがって,その有効性と効率を実証した。
論文参考訳（メタデータ） (2024-10-31T06:20:17Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
Communication-Efficient Decentralized Federated Learning via One-Bit Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-08-31T12:22:40Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文参考訳（メタデータ） (2023-02-20T08:37:44Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
DisPFL: Towards Communication-Efficient Personalized Federated Learning via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。 Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文参考訳（メタデータ） (2022-06-01T02:20:57Z)
Nebula-I: A General Framework for Collaboratively Training Deep Learning Models on Low-Bandwidth Cloud Clusters [39.85470606966918]
遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。 Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2022-05-19T11:10:14Z)
SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文参考訳（メタデータ） (2021-12-31T06:25:38Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。