論文の概要: Detached Error Feedback for Distributed SGD with Random Sparsification
- arxiv url: http://arxiv.org/abs/2004.05298v3
- Date: Mon, 13 Jun 2022 13:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 09:59:33.661982
- Title: Detached Error Feedback for Distributed SGD with Random Sparsification
- Title(参考訳): ランダムスペーシングを用いた分散SGDの分離誤差フィードバック
- Authors: An Xu, Heng Huang
- Abstract要約: コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
- 参考スコア(独自算出の注目度): 98.98236187442258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The communication bottleneck has been a critical problem in large-scale
distributed deep learning. In this work, we study distributed SGD with random
block-wise sparsification as the gradient compressor, which is ring-allreduce
compatible and highly computation-efficient but leads to inferior performance.
To tackle this important issue, we improve the communication-efficient
distributed SGD from a novel aspect, that is, the trade-off between the
variance and second moment of the gradient. With this motivation, we propose a
new detached error feedback (DEF) algorithm, which shows better convergence
bound than error feedback for non-convex problems. We also propose DEF-A to
accelerate the generalization of DEF at the early stages of the training, which
shows better generalization bounds than DEF. Furthermore, we establish the
connection between communication-efficient distributed SGD and SGD with iterate
averaging (SGD-IA) for the first time. Extensive deep learning experiments show
significant empirical improvement of the proposed methods under various
settings.
- Abstract(参考訳): 大規模分散ディープラーニングでは,通信ボトルネックが重要な問題となっている。
本研究では,不規則なブロック幅の分散SGDを,リングアレーダ互換かつ高い計算効率を持つ勾配圧縮機として検討するが,性能は低下する。
この重要な問題に対処するために、我々は通信効率のよい分散SGD、すなわち勾配のばらつきと第二モーメントの間のトレードオフを改善した。
このモチベーションにより,非凸問題に対する誤差フィードバックよりも高い収束率を示す新しい分離誤差フィードバック(def)アルゴリズムを提案する。
また、Def-Aは、トレーニングの初期段階におけるDefの一般化を加速し、Defよりも優れた一般化境界を示す。
さらに,通信効率の高い分散SGDとSGDとの接続を,SGD-IA (Iterate Averaging) と初めて確立した。
深層学習実験では,様々な条件下で提案手法の有意な経験的改善が示された。
関連論文リスト
- Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Compressing gradients by exploiting temporal correlation in momentum-SGD [17.995905582226463]
エラーフィードバックのないシステムにおける時間相関を利用した圧縮手法を解析する。
ImageNetデータセットを用いた実験により,提案手法は通信速度を著しく低減することを示した。
我々は、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でSGDの収束を証明した。
論文 参考訳(メタデータ) (2021-08-17T18:04:06Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - FedADC: Accelerated Federated Learning with Drift Control [6.746400031322727]
フェデレーション学習(fl)は、プライバシーを懸念するエッジデバイス間のコラボレーション学習のためのデファクトフレームワークとなっている。
FLの大規模実装は、SGD用に設計された加速技術の分散環境への導入や、局所データセットの非均一分布によるドリフト問題の緩和など、新たな課題をもたらす。
flフレームワークに大きな変更を加えることなく、あるいは追加の計算と通信負荷を導入することなく、単一の戦略を使って両方の問題に対処することが可能であることを示す。
ドリフト制御を用いた加速FLアルゴリズムであるFedADCを提案する。
論文 参考訳(メタデータ) (2020-12-16T17:49:37Z) - Linearly Converging Error Compensated SGD [11.436753102510647]
本稿では、任意の圧縮と遅延更新を伴う分散SGDの変種を統一的に解析する。
我々のフレームワークは、量子化されたSGD、ErrorCompensated SGD、SGDの様々な変種をカバーするのに十分である。
我々は、分散還元や任意のサンプリングと誤りフィードバックと量子化を組み合わせたSGDの新しい変種を開発する。
論文 参考訳(メタデータ) (2020-10-23T10:46:31Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。