論文の概要: Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging
- arxiv url: http://arxiv.org/abs/2005.00124v3
- Date: Sat, 20 Feb 2021 15:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:47:11.875931
- Title: Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging
- Title(参考訳): 待機回避群平均化による並列確率最適化における(グローバル)障壁の破断
- Authors: Shigang Li, Tal Ben-Nun, Giorgi Nadiradze, Salvatore Di Girolamo,
Nikoli Dryden, Dan Alistarh, Torsten Hoefler
- Abstract要約: 本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
- 参考スコア(独自算出の注目度): 34.55741812648229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning at scale is dominated by communication time. Distributing
samples across nodes usually yields the best performance, but poses scaling
challenges due to global information dissemination and load imbalance across
uneven sample lengths. State-of-the-art decentralized optimizers mitigate the
problem, but require more iterations to achieve the same accuracy as their
globally-communicating counterparts. We present Wait-Avoiding Group Model
Averaging (WAGMA) SGD, a wait-avoiding stochastic optimizer that reduces global
communication via subgroup weight exchange. The key insight is a combination of
algorithmic changes to the averaging scheme and the use of a group allreduce
operation. We prove the convergence of WAGMA-SGD, and empirically show that it
retains convergence rates similar to Allreduce-SGD. For evaluation, we train
ResNet-50 on ImageNet; Transformer for machine translation; and deep
reinforcement learning for navigation at scale. Compared with state-of-the-art
decentralized SGD variants, WAGMA-SGD significantly improves training
throughput (e.g., 2.1x on 1,024 GPUs for reinforcement learning), and achieves
the fastest time-to-solution (e.g., the highest score using the shortest
training time for Transformer).
- Abstract(参考訳): 大規模なディープラーニングは、コミュニケーション時間によって支配される。
サンプルをノードに分散することは、通常、最高のパフォーマンスをもたらすが、グローバル情報の拡散と、不均一なサンプル長にわたる負荷の不均衡のために、スケーリングの課題を提起する。
最先端の分散オプティマイザは問題を緩和するが、グローバルコミュニケーションのオプティマイザと同じ精度を達成するために、より多くのイテレーションを必要とする。
本稿では,wagma(wait-avoiding group model averaging) sgd(wait-avoiding stochastic optimizationr)を提案する。
重要な洞察は、平均化スキームへのアルゴリズム的変更とグループallreduce操作の使用の組み合わせである。
我々は、WAGMA-SGDの収束を証明し、Allreduce-SGDと同様の収束率を維持していることを示す。
評価のために、ImageNet上でResNet-50、機械翻訳用トランスフォーマー、大規模ナビゲーションのための深層強化学習を訓練する。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループット(強化学習用1,024GPUの2.1倍)を著しく改善し、最も高速なタイム・ツー・ソリューション(トランスフォーマーの最短トレーニング時間を用いた最高スコアなど)を達成する。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Stochastic Weight Averaging Revisited [5.68481425260348]
SWAの性能は、SWAが収束する前に実行されるSGDプロセスの程度に大きく依存していることを示す。
収束が不十分なSGDプロセスに続き、SWAの実行回数が増えると、一般化の観点で連続的な漸進的なメリットがもたらされることが示される。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning [6.370766463380455]
コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T00:04:55Z) - O(1) Communication for Distributed SGD through Two-Level Gradient
Averaging [0.0]
我々は,2段階勾配平均化(A2SGD)と呼ばれる戦略を導入し,すべての勾配を労働者1人当たりの局所的な平均値に統一する。
我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。
論文 参考訳(メタデータ) (2020-06-12T18:20:52Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。