論文の概要: Asynchronous Decentralized Distributed Training of Acoustic Models
- arxiv url: http://arxiv.org/abs/2110.11199v1
- Date: Thu, 21 Oct 2021 15:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:10:29.548159
- Title: Asynchronous Decentralized Distributed Training of Acoustic Models
- Title(参考訳): 音響モデルの非同期分散分散学習
- Authors: Xiaodong Cui, Wei Zhang, Abdullah Kayi, Mingrui Liu, Ulrich Finkler,
Brian Kingsbury, George Saon, David Kung
- Abstract要約: 非同期分散並列SGD(ADPSGD)の3つの変種について検討する。
固定およびランダム化された通信パターンを持つADPSGDは、遅い学習者とうまく対応していることを示す。
特に,遅延・バイ・ワン戦略を用いて,2時間以内で音響モデルを訓練することができる。
- 参考スコア(独自算出の注目度): 43.34839658423581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale distributed training of deep acoustic models plays an important
role in today's high-performance automatic speech recognition (ASR). In this
paper we investigate a variety of asynchronous decentralized distributed
training strategies based on data parallel stochastic gradient descent (SGD) to
show their superior performance over the commonly-used synchronous distributed
training via allreduce, especially when dealing with large batch sizes.
Specifically, we study three variants of asynchronous decentralized parallel
SGD (ADPSGD), namely, fixed and randomized communication patterns on a ring as
well as a delay-by-one scheme. We introduce a mathematical model of ADPSGD,
give its theoretical convergence rate, and compare the empirical convergence
behavior and straggler resilience properties of the three variants. Experiments
are carried out on an IBM supercomputer for training deep long short-term
memory (LSTM) acoustic models on the 2000-hour Switchboard dataset. Recognition
and speedup performance of the proposed strategies are evaluated under various
training configurations. We show that ADPSGD with fixed and randomized
communication patterns cope well with slow learners. When learners are equally
fast, ADPSGD with the delay-by-one strategy has the fastest convergence with
large batches. In particular, using the delay-by-one strategy, we can train the
acoustic model in less than 2 hours using 128 V100 GPUs with competitive word
error rates.
- Abstract(参考訳): 深層音響モデルの大規模分散学習は、今日の高性能自動音声認識(asr)において重要な役割を果たす。
本稿では,データ並列確率勾配勾配(SGD)に基づく非同期分散型分散トレーニング戦略について検討し,特に大規模なバッチサイズを扱う場合において,Allreduceによる非同期分散トレーニングよりも優れた性能を示す。
具体的には,非同期分散並列SGD(ADPSGD)の3つの変種について検討する。
我々はADPSGDの数学的モデルを導入し、理論収束率を与え、3つの変種の経験収束挙動とストラグラーレジリエンス特性を比較した。
2000時間Switchboardデータセット上で、深部長期記憶(LSTM)音響モデルをトレーニングするためのIBMスーパーコンピュータ上で実験を行った。
提案手法の認識と高速化性能を様々なトレーニング構成で評価した。
固定およびランダム化された通信パターンを持つADPSGDは、遅い学習者とうまく対応していることを示す。
学習者が等しく速い場合、ADPSGDと遅延・バイ・ワン戦略は大きなバッチで収束する。
特に遅延・バイ・ワン戦略を用いることで、128 v100 gpuのワード誤り率で音響モデルを2時間未満で訓練することができる。
関連論文リスト
- Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - DBS: Dynamic Batch Size For Distributed Deep Neural Network Training [19.766163856388694]
ディープニューラルネットワーク(DNN)の分散学習のための動的バッチサイズ(DBS)戦略を提案する。
具体的には、前のエポックの事実に基づいて各ワーカーのパフォーマンスを第一に評価し、バッチサイズとデータセット分割を動的に調整する。
実験結果から,提案手法はクラスタの性能を十分に活用し,トレーニング時間を短縮し,無関係なタスクによる障害に強いロバスト性を有することを示す。
論文 参考訳(メタデータ) (2020-07-23T07:31:55Z) - Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning [6.370766463380455]
コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T00:04:55Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。