論文の概要: Crossover-SGD: A gossip-based communication in distributed deep learning
for alleviating large mini-batch problem and enhancing scalability
- arxiv url: http://arxiv.org/abs/2012.15198v1
- Date: Wed, 30 Dec 2020 15:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 12:39:33.279682
- Title: Crossover-SGD: A gossip-based communication in distributed deep learning
for alleviating large mini-batch problem and enhancing scalability
- Title(参考訳): Crossover-SGD: 分散ディープラーニングにおけるゴシップベース通信による大規模ミニバッチ問題の緩和とスケーラビリティ向上
- Authors: Sangho Yeo, Minho Bae, Minjoong Jeong, Oh-kyoung Kwon, Sangyoon Oh
- Abstract要約: 大規模ミニバッチ問題におけるゴシップ法の特徴について検討する。
セグメントワイズ通信による重量パラメータの遅延伝播を緩和するクロスオーバーSGDを提案する。
また,ゴシップに基づくコミュニケーション手法における労働者数を制限するため,階層的なコミュニケーションも行う。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed deep learning is an effective way to reduce the training time of
deep learning for large datasets as well as complex models. However, the
limited scalability caused by network overheads makes it difficult to
synchronize the parameters of all workers. To resolve this problem,
gossip-based methods that demonstrates stable scalability regardless of the
number of workers have been proposed. However, to use gossip-based methods in
general cases, the validation accuracy for a large mini-batch needs to be
verified. To verify this, we first empirically study the characteristics of
gossip methods in a large mini-batch problem and observe that the gossip
methods preserve higher validation accuracy than AllReduce-SGD(Stochastic
Gradient Descent) when the number of batch sizes is increased and the number of
workers is fixed. However, the delayed parameter propagation of the
gossip-based models decreases validation accuracy in large node scales. To cope
with this problem, we propose Crossover-SGD that alleviates the delay
propagation of weight parameters via segment-wise communication and load
balancing random network topology. We also adapt hierarchical communication to
limit the number of workers in gossip-based communication methods. To validate
the effectiveness of our proposed method, we conduct empirical experiments and
observe that our Crossover-SGD shows higher node scalability than
SGP(Stochastic Gradient Push).
- Abstract(参考訳): 分散ディープラーニングは、大規模なデータセットと複雑なモデルのためのディープラーニングのトレーニング時間を短縮する効果的な方法である。
しかし、ネットワークオーバーヘッドによるスケーラビリティの制限により、すべてのワーカーのパラメータの同期が困難になる。
この問題を解決するため, 作業者数に関係なく, 安定したスケーラビリティを示すゴシップ方式が提案されている。
しかし、一般的にゴシップ方式を使用するには、大規模なミニバッチの検証精度を検証する必要がある。
そこで本研究では,まず,大規模ミニバッチ問題におけるゴシップ法の特性を実証的に検討し,バッチサイズ数の増加とワーカ数の増加に対して,allreduce-sgd(stochasticgradient descent)よりも高い検証精度を維持できることを確認した。
しかし,gossipに基づくモデルの遅延パラメータ伝搬は,大規模ノードスケールでの検証精度を低下させる。
この問題に対処するため,重みパラメータの遅延伝搬を,セグメントワイド通信と負荷分散ランダムネットワークトポロジにより緩和するクロスオーバーSGDを提案する。
また,ゴシップに基づくコミュニケーション手法における労働者数を制限するため,階層的なコミュニケーションも行う。
提案手法の有効性を検証するため,我々は実験実験を行い,我々のクロスオーバーSGDがSGP(Stochastic Gradient Push)よりも高いノードスケーラビリティを示した。
関連論文リスト
- Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Contextual Squeeze-and-Excitation for Efficient Few-Shot Image
Classification [57.36281142038042]
本稿では,事前学習したニューラルネットワークを新しいタスクで調整し,性能を大幅に向上させる,Contextual Squeeze-and-Excitation (CaSE) という適応ブロックを提案する。
また、メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応する、アッパーCaSEと呼ばれるコーディネートダイスに基づく新しいトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2022-06-20T15:25:08Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - SPATL: Salient Parameter Aggregation and Transfer Learning for
Heterogeneous Clients in Federated Learning [3.5394650810262336]
効率的なフェデレーション学習は、エッジデバイス上でAIモデルをトレーニングしデプロイする上で重要な課題の1つだ。
フェデレーション学習におけるデータのプライバシの維持は、データの均一性、高価な通信コスト、限られたリソースなど、いくつかの課題を引き起こす。
本稿では,ローカルクライアントの深層強化学習に基づく有能なパラメータ選択エージェントを提案し,選択した有能なパラメータを中央サーバに集約する。
論文 参考訳(メタデータ) (2021-11-29T06:28:05Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Local Stochastic Gradient Descent Ascent: Convergence Analysis and
Communication Efficiency [15.04034188283642]
Local SGDは分散学習における通信オーバーヘッドを克服するための有望なアプローチである。
局所sgdaは均質データと異質データの両方において分散ミニマックス問題を確実に最適化できることを示す。
論文 参考訳(メタデータ) (2021-02-25T20:15:18Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。