Fugu-MT 論文翻訳(概要): Crossover-SGD: A gossip-based communication in distributed deep learning for alleviating large mini-batch problem and enhancing scalability

論文の概要: Crossover-SGD: A gossip-based communication in distributed deep learning for alleviating large mini-batch problem and enhancing scalability

arxiv url: http://arxiv.org/abs/2012.15198v1
Date: Wed, 30 Dec 2020 15:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-18 12:39:33.279682
Title: Crossover-SGD: A gossip-based communication in distributed deep learning for alleviating large mini-batch problem and enhancing scalability
Title（参考訳）: Crossover-SGD: 分散ディープラーニングにおけるゴシップベース通信による大規模ミニバッチ問題の緩和とスケーラビリティ向上
Authors: Sangho Yeo, Minho Bae, Minjoong Jeong, Oh-kyoung Kwon, Sangyoon Oh
Abstract要約: 大規模ミニバッチ問題におけるゴシップ法の特徴について検討する。セグメントワイズ通信による重量パラメータの遅延伝播を緩和するクロスオーバーSGDを提案する。また,ゴシップに基づくコミュニケーション手法における労働者数を制限するため,階層的なコミュニケーションも行う。
参考スコア（独自算出の注目度）: 0.5249805590164902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distributed deep learning is an effective way to reduce the training time of deep learning for large datasets as well as complex models. However, the limited scalability caused by network overheads makes it difficult to synchronize the parameters of all workers. To resolve this problem, gossip-based methods that demonstrates stable scalability regardless of the number of workers have been proposed. However, to use gossip-based methods in general cases, the validation accuracy for a large mini-batch needs to be verified. To verify this, we first empirically study the characteristics of gossip methods in a large mini-batch problem and observe that the gossip methods preserve higher validation accuracy than AllReduce-SGD(Stochastic Gradient Descent) when the number of batch sizes is increased and the number of workers is fixed. However, the delayed parameter propagation of the gossip-based models decreases validation accuracy in large node scales. To cope with this problem, we propose Crossover-SGD that alleviates the delay propagation of weight parameters via segment-wise communication and load balancing random network topology. We also adapt hierarchical communication to limit the number of workers in gossip-based communication methods. To validate the effectiveness of our proposed method, we conduct empirical experiments and observe that our Crossover-SGD shows higher node scalability than SGP(Stochastic Gradient Push).
Abstract（参考訳）: 分散ディープラーニングは、大規模なデータセットと複雑なモデルのためのディープラーニングのトレーニング時間を短縮する効果的な方法である。しかし、ネットワークオーバーヘッドによるスケーラビリティの制限により、すべてのワーカーのパラメータの同期が困難になる。この問題を解決するため, 作業者数に関係なく, 安定したスケーラビリティを示すゴシップ方式が提案されている。しかし、一般的にゴシップ方式を使用するには、大規模なミニバッチの検証精度を検証する必要がある。そこで本研究では,まず,大規模ミニバッチ問題におけるゴシップ法の特性を実証的に検討し,バッチサイズ数の増加とワーカ数の増加に対して,allreduce-sgd(stochasticgradient descent)よりも高い検証精度を維持できることを確認した。しかし,gossipに基づくモデルの遅延パラメータ伝搬は,大規模ノードスケールでの検証精度を低下させる。この問題に対処するため,重みパラメータの遅延伝搬を,セグメントワイド通信と負荷分散ランダムネットワークトポロジにより緩和するクロスオーバーSGDを提案する。また,ゴシップに基づくコミュニケーション手法における労働者数を制限するため,階層的なコミュニケーションも行う。提案手法の有効性を検証するため,我々は実験実験を行い,我々のクロスオーバーSGDがSGP(Stochastic Gradient Push)よりも高いノードスケーラビリティを示した。

関連論文リスト

SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Asynchronous Federated Stochastic Optimization for Heterogeneous Objectives Under Arbitrary Delays [0.0]
フェデレートラーニング(FL)は、データを複数の場所に保持するモデル("clients")をセキュアにトレーニングするために提案されている。 FLアルゴリズムの性能を阻害する2つの大きな課題は、階層化クライアントによって引き起こされる長いトレーニング時間と、非イドローカルなデータ分布("client drift")によるモデル精度の低下である。本稿では,Asynchronous Exact Averaging (AREA, Asynchronous Exact Averaging) を提案する。Asynchronous Exact Averaging (AREA) は,通信を利用して収束を高速化し,拡張性を向上し,クライアント更新頻度の変動によるクライアントのドリフトの補正にクライアントメモリを利用する。
論文参考訳（メタデータ） (2024-05-16T14:22:49Z)
Few-Shot Class Incremental Learning via Robust Transformer Approach [16.590193619691416]
Few-Shot Class-Incremental Learningは,データ不足の問題にモデルが直面しているクラス増分学習問題の拡張を提示する。この問題は、最近のすべての研究が、準最適に実行される畳み込みニューラルネットワークの上に構築されているため、未解決の問題のままである。本稿では,コンパクト畳み込み変換器を用いたロバスト変換器を提案する。
論文参考訳（メタデータ） (2024-05-08T03:35:52Z)
Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文参考訳（メタデータ） (2023-02-19T17:42:35Z)
Quantized Distributed Training of Large Models with Convergence Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。 QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-05T14:20:55Z)
Communication-Compressed Adaptive Gradient Method for Distributed Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文参考訳（メタデータ） (2021-11-01T04:54:55Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。