論文の概要: Crossover-SGD: A gossip-based communication in distributed deep learning
for alleviating large mini-batch problem and enhancing scalability
- arxiv url: http://arxiv.org/abs/2012.15198v1
- Date: Wed, 30 Dec 2020 15:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 12:39:33.279682
- Title: Crossover-SGD: A gossip-based communication in distributed deep learning
for alleviating large mini-batch problem and enhancing scalability
- Title(参考訳): Crossover-SGD: 分散ディープラーニングにおけるゴシップベース通信による大規模ミニバッチ問題の緩和とスケーラビリティ向上
- Authors: Sangho Yeo, Minho Bae, Minjoong Jeong, Oh-kyoung Kwon, Sangyoon Oh
- Abstract要約: 大規模ミニバッチ問題におけるゴシップ法の特徴について検討する。
セグメントワイズ通信による重量パラメータの遅延伝播を緩和するクロスオーバーSGDを提案する。
また,ゴシップに基づくコミュニケーション手法における労働者数を制限するため,階層的なコミュニケーションも行う。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed deep learning is an effective way to reduce the training time of
deep learning for large datasets as well as complex models. However, the
limited scalability caused by network overheads makes it difficult to
synchronize the parameters of all workers. To resolve this problem,
gossip-based methods that demonstrates stable scalability regardless of the
number of workers have been proposed. However, to use gossip-based methods in
general cases, the validation accuracy for a large mini-batch needs to be
verified. To verify this, we first empirically study the characteristics of
gossip methods in a large mini-batch problem and observe that the gossip
methods preserve higher validation accuracy than AllReduce-SGD(Stochastic
Gradient Descent) when the number of batch sizes is increased and the number of
workers is fixed. However, the delayed parameter propagation of the
gossip-based models decreases validation accuracy in large node scales. To cope
with this problem, we propose Crossover-SGD that alleviates the delay
propagation of weight parameters via segment-wise communication and load
balancing random network topology. We also adapt hierarchical communication to
limit the number of workers in gossip-based communication methods. To validate
the effectiveness of our proposed method, we conduct empirical experiments and
observe that our Crossover-SGD shows higher node scalability than
SGP(Stochastic Gradient Push).
- Abstract(参考訳): 分散ディープラーニングは、大規模なデータセットと複雑なモデルのためのディープラーニングのトレーニング時間を短縮する効果的な方法である。
しかし、ネットワークオーバーヘッドによるスケーラビリティの制限により、すべてのワーカーのパラメータの同期が困難になる。
この問題を解決するため, 作業者数に関係なく, 安定したスケーラビリティを示すゴシップ方式が提案されている。
しかし、一般的にゴシップ方式を使用するには、大規模なミニバッチの検証精度を検証する必要がある。
そこで本研究では,まず,大規模ミニバッチ問題におけるゴシップ法の特性を実証的に検討し,バッチサイズ数の増加とワーカ数の増加に対して,allreduce-sgd(stochasticgradient descent)よりも高い検証精度を維持できることを確認した。
しかし,gossipに基づくモデルの遅延パラメータ伝搬は,大規模ノードスケールでの検証精度を低下させる。
この問題に対処するため,重みパラメータの遅延伝搬を,セグメントワイド通信と負荷分散ランダムネットワークトポロジにより緩和するクロスオーバーSGDを提案する。
また,ゴシップに基づくコミュニケーション手法における労働者数を制限するため,階層的なコミュニケーションも行う。
提案手法の有効性を検証するため,我々は実験実験を行い,我々のクロスオーバーSGDがSGP(Stochastic Gradient Push)よりも高いノードスケーラビリティを示した。
関連論文リスト
- Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Quantized Distributed Training of Large Models with Convergence
Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。
QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-05T14:20:55Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - FetchSGD: Communication-Efficient Federated Learning with Sketching [45.483040586122115]
既存のフェデレーション学習へのアプローチは、コミュニケーションのボトルネックと、疎結合なクライアント参加による収束の問題に悩まされている。
FetchSGDはCount Sketchを使用してモデル更新を圧縮し、スケッチのマージ可能性を活用して、多くのワーカのモデル更新を組み合わせる。
論文 参考訳(メタデータ) (2020-07-15T13:46:34Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。