Fugu-MT 論文翻訳(概要): Decentralized SGD and Average-direction SAM are Asymptotically Equivalent

論文の概要: Decentralized SGD and Average-direction SAM are Asymptotically Equivalent

arxiv url: http://arxiv.org/abs/2306.02913v5
Date: Thu, 9 Nov 2023 13:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 18:09:59.517958
Title: Decentralized SGD and Average-direction SAM are Asymptotically Equivalent
Title（参考訳）: 分散SGDと平均方向SAMは漸近的に等価である
Authors: Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao
Abstract要約: 分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。既存の理論では、分散化は必ず一般化される。
参考スコア（独自算出の注目度）: 101.37242096601315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. The code is available at https://github.com/Raiden-Zhu/ICML-2023-DSGD-and-SAM.
Abstract（参考訳）: 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。しかし、既存の理論では、分散化が一般化を弱めている。本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。 d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。 This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. コードはhttps://github.com/Raiden-Zhu/ICML-2023-DSGD-and-SAMで公開されている。

関連論文リスト

Controlled disagreement improves generalization in decentralized training [10.764160559530845]
集中型トレーニングは、コンセンサスエラーが収束と一般化を損なうため、集中型トレーニングよりも劣ると見なされることが多い。本研究は,Adaptive Consensus (DSGD-AC) を用いた分散SGDの導入により,この視点に挑戦する。これらの誤差はランダムノイズではなく、支配的なヘッセン部分空間と体系的に一致し、フラットなミニマに向けて最適化を導く構造的摂動として機能することを証明する。
論文参考訳（メタデータ） (2026-02-02T23:14:37Z)
DIGing--SGLD: Decentralized and Scalable Langevin Sampling over Time--Varying Networks [7.477601047470181]
本稿では,マルチエージェントシステムにおけるスケーラブルベイズ学習のための分散SGLDアルゴリズムであるDIGing-SGLDを紹介する。時間変化ネットワーク上での分散SGLDに基づくサンプリングのための,最初の有限時間非漸近収束保証を提供する。
論文参考訳（メタデータ） (2025-11-16T23:42:44Z)
Unveiling the Power of Multiple Gossip Steps: A Stability-Based Generalization Analysis in Decentralized Training [64.84977068837371]
分散トレーニングは集中型サーバを取り除き、通信効率が向上し、トレーニング効率が大幅に向上するが、集中型トレーニングに比べてパフォーマンスが低下することが多い。 MultiGossip Steps (MGS) は、分散トレーニングと集中トレーニングの間に、シンプルだが効果的なブリッジとして機能する。
論文参考訳（メタデータ） (2025-10-09T09:14:47Z)
Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文参考訳（メタデータ） (2024-11-14T11:16:32Z)
Stability and Generalization of the Decentralized Stochastic Gradient Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。本研究は,D-SGDAの一般化における各因子の影響を解析した。また、最適凸凹設定を得るために一般化とバランスをとる。
論文参考訳（メタデータ） (2023-10-31T11:27:01Z)
DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。 Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文参考訳（メタデータ） (2022-08-29T18:01:42Z)
Implicit Regularization or Implicit Conditioning? Exact Risk Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。 HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文参考訳（メタデータ） (2022-06-15T02:32:26Z)
Heavy-Tail Phenomenon in Decentralized SGD [33.63000461985398]
分散勾配降下(DE-SGD)における重鎖の出現について検討する。また,分権化が尾の挙動に及ぼす影響についても検討した。我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにする。
論文参考訳（メタデータ） (2022-05-13T14:47:04Z)
Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文参考訳（メタデータ） (2022-03-07T06:34:53Z)
Decentralized Stochastic Proximal Gradient Descent with Variance Reduction over Time-varying Networks [30.231314171218994]
分散学習において、ノードのネットワークは、通常、その局所的な目的の有限サムである全体的な目的関数を最小化するために協力する。そこで本研究では,分散縮小手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。
論文参考訳（メタデータ） (2021-12-20T08:23:36Z)
Non Asymptotic Bounds for Optimization via Online Multiplicative Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文参考訳（メタデータ） (2021-12-14T02:25:43Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)
A Unified Theory of Decentralized SGD with Changing Topology and Local Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。いくつかの応用に対して普遍収束率を導出する。私たちの証明は弱い仮定に依存している。
論文参考訳（メタデータ） (2020-03-23T17:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。