論文の概要: Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent
- arxiv url: http://arxiv.org/abs/2306.02913v3
- Date: Mon, 10 Jul 2023 15:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 18:18:05.619175
- Title: Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent
- Title(参考訳): 分散SGDと平均方向SAMは漸近的に等価である
- Authors: Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao
- Abstract要約: 分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
- 参考スコア(独自算出の注目度): 96.91957435368595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized stochastic gradient descent (D-SGD) allows collaborative
learning on massive devices simultaneously without the control of a central
server. However, existing theories claim that decentralization invariably
undermines generalization. In this paper, we challenge the conventional belief
and present a completely new perspective for understanding decentralized
learning. We prove that D-SGD implicitly minimizes the loss function of an
average-direction Sharpness-aware minimization (SAM) algorithm under general
non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence
reveals an intrinsic regularization-optimization trade-off and three advantages
of decentralization: (1) there exists a free uncertainty evaluation mechanism
in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient
smoothing effect; and (3) the sharpness regularization effect of D-SGD does not
decrease as total batch size increases, which justifies the potential
generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch
scenarios.
- Abstract(参考訳): 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
しかし、既存の理論では、分散化が一般化を弱めている。
本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。
d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。
This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios.
関連論文リスト
- Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Heavy-Tail Phenomenon in Decentralized SGD [33.63000461985398]
分散勾配降下(DE-SGD)における重鎖の出現について検討する。
また,分権化が尾の挙動に及ぼす影響についても検討した。
我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにする。
論文 参考訳(メタデータ) (2022-05-13T14:47:04Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Decentralized Stochastic Proximal Gradient Descent with Variance
Reduction over Time-varying Networks [30.231314171218994]
分散学習において、ノードのネットワークは、通常、その局所的な目的の有限サムである全体的な目的関数を最小化するために協力する。
そこで本研究では,分散縮小手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
論文 参考訳(メタデータ) (2021-12-20T08:23:36Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。