論文の概要: Improving Efficiency in Large-Scale Decentralized Distributed Training
- arxiv url: http://arxiv.org/abs/2002.01119v1
- Date: Tue, 4 Feb 2020 04:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:41:17.071321
- Title: Improving Efficiency in Large-Scale Decentralized Distributed Training
- Title(参考訳): 大規模分散トレーニングにおける効率向上
- Authors: Wei Zhang, Xiaodong Cui, Abdullah Kayi, Mingrui Liu, Ulrich Finkler,
Brian Kingsbury, George Saon, Youssef Mroueh, Alper Buyuktosunoglu, Payel
Das, David Kung, Michael Picheny
- Abstract要約: 通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
- 参考スコア(独自算出の注目度): 58.80224380923698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized Parallel SGD (D-PSGD) and its asynchronous variant Asynchronous
Parallel SGD (AD-PSGD) is a family of distributed learning algorithms that have
been demonstrated to perform well for large-scale deep learning tasks. One
drawback of (A)D-PSGD is that the spectral gap of the mixing matrix decreases
when the number of learners in the system increases, which hampers convergence.
In this paper, we investigate techniques to accelerate (A)D-PSGD based training
by improving the spectral gap while minimizing the communication cost. We
demonstrate the effectiveness of our proposed techniques by running experiments
on the 2000-hour Switchboard speech recognition task and the ImageNet computer
vision task. On an IBM P9 supercomputer, our system is able to train an LSTM
acoustic model in 2.28 hours with 7.5% WER on the Hub5-2000 Switchboard (SWB)
test set and 13.3% WER on the CallHome (CH) test set using 64 V100 GPUs and in
1.98 hours with 7.7% WER on SWB and 13.3% WER on CH using 128 V100 GPUs, the
fastest training time reported to date.
- Abstract(参考訳): Decentralized Parallel SGD (D-PSGD) と非同期型 Asynchronous Parallel SGD (AD-PSGD) は分散学習アルゴリズムの一群であり、大規模深層学習に有効である。
A)D-PSGDの欠点は、混合行列のスペクトルギャップがシステム内の学習者の数が増えると減少し、ハマーが収束することである。
本稿では,通信コストを最小化しつつスペクトルギャップを改善し,(a)d-psgdに基づくトレーニングを高速化する手法について検討する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
IBM P9 スーパーコンピュータ上では,Hav5-2000 Switchboard (SWB) テストセットで7.5% WER,CallHome (CH) テストセットで13.3% WER,SWB で7.7% WER で1.98時間,CH で128 V100 GPU で13.3% WER で2.28時間,LSTM 音響モデルをトレーニングすることができる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Low-Latency Cooperative Spectrum Sensing via Truncated Vertical
Federated Learning [51.51440623636274]
データプライバシを損なうことなく、複数のセカンダリユーザ(SU)にまたがる分散機能を活用できる垂直連合学習(VFL)フレームワークを提案する。
学習プロセスの高速化を目的として,T-VFL(Truncated vertical Federated Learning)アルゴリズムを提案する。
T-VFLの収束性能は、数学的解析によって提供され、シミュレーション結果によって正当化される。
論文 参考訳(メタデータ) (2022-08-07T10:39:27Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized
Stochastic Gradient Descent [37.52828820578212]
大規模ディープラーニング(DL)トレーニングには分散ディープラーニング(DDL)が不可欠である。
大規模なバッチ設定では、パラメータ更新回数の削減を補うために、学習率を上昇させなければならない。
近年,訓練速度を向上させるために分散並列SGD(DPSGD)が提案されている。
論文 参考訳(メタデータ) (2021-12-02T17:23:25Z) - Asynchronous Decentralized Distributed Training of Acoustic Models [43.34839658423581]
非同期分散並列SGD(ADPSGD)の3つの変種について検討する。
固定およびランダム化された通信パターンを持つADPSGDは、遅い学習者とうまく対応していることを示す。
特に,遅延・バイ・ワン戦略を用いて,2時間以内で音響モデルを訓練することができる。
論文 参考訳(メタデータ) (2021-10-21T15:14:58Z) - Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
論文 参考訳(メタデータ) (2021-07-14T08:01:07Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z) - Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning [6.370766463380455]
コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T00:04:55Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。