論文の概要: Demystifying Why Local Aggregation Helps: Convergence Analysis of
Hierarchical SGD
- arxiv url: http://arxiv.org/abs/2010.12998v3
- Date: Fri, 11 Feb 2022 20:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:45:07.771683
- Title: Demystifying Why Local Aggregation Helps: Convergence Analysis of
Hierarchical SGD
- Title(参考訳): 局所集約がなぜ役立つのか:階層型SGDの収束解析
- Authors: Jiayi Wang, Shiqiang Wang, Rong-Rong Chen, Mingyue Ji
- Abstract要約: 階層型SGD(H-SGD)は,マルチレベル通信ネットワークのための分散SGDアルゴリズムとして登場した。
H-SGDでは、各グローバルアグリゲーションの前に、ワーカが更新されたローカルモデルをローカルサーバに送信してアグリゲーションを行う。
近年の研究努力にもかかわらず、世界収束は理論的な理解を欠いている。
- 参考スコア(独自算出の注目度): 39.83842384923813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical SGD (H-SGD) has emerged as a new distributed SGD algorithm for
multi-level communication networks. In H-SGD, before each global aggregation,
workers send their updated local models to local servers for aggregations.
Despite recent research efforts, the effect of local aggregation on global
convergence still lacks theoretical understanding. In this work, we first
introduce a new notion of "upward" and "downward" divergences. We then use it
to conduct a novel analysis to obtain a worst-case convergence upper bound for
two-level H-SGD with non-IID data, non-convex objective function, and
stochastic gradient. By extending this result to the case with random grouping,
we observe that this convergence upper bound of H-SGD is between the upper
bounds of two single-level local SGD settings, with the number of local
iterations equal to the local and global update periods in H-SGD, respectively.
We refer to this as the "sandwich behavior". Furthermore, we extend our
analytical approach based on "upward" and "downward" divergences to study the
convergence for the general case of H-SGD with more than two levels, where the
"sandwich behavior" still holds. Our theoretical results provide key insights
of why local aggregation can be beneficial in improving the convergence of
H-SGD.
- Abstract(参考訳): 階層型SGD(H-SGD)は,マルチレベル通信ネットワークのための分散SGDアルゴリズムとして登場した。
H-SGDでは、各グローバルアグリゲーションの前に、更新されたローカルモデルをローカルサーバに送信してアグリゲーションを行う。
近年の研究努力にもかかわらず、局所的な集約がグローバル収束に与える影響は理論的な理解を欠いている。
そこで本研究では,まず「上向き」と「下向き」という新たな概念を導入する。
次に,非IIDデータ,非凸目的関数,確率勾配を持つ2レベルH-SGDの最悪の収束上限を求めるために,新たな解析を行う。
この結果をランダムなグループ化の場合に拡張することにより、H-SGDの収束上限は、H-SGDの局所更新期間とグローバル更新期間の局所反復回数の2つの単一レベルローカルSGD設定の上界の間にあることが分かる。
これを「サンドウィッチ行動」と呼ぶ。
さらに,2段階以上のH-SGDの一般症例において,「逆」および「下」の発散に基づく解析的アプローチを拡張し,その「サンドウィッチの挙動」が保たれている場合の収束性について検討する。
以上の結果から,H-SGDの収束性向上に局所凝集が有効であることを示す。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Linearly Converging Error Compensated SGD [11.436753102510647]
本稿では、任意の圧縮と遅延更新を伴う分散SGDの変種を統一的に解析する。
我々のフレームワークは、量子化されたSGD、ErrorCompensated SGD、SGDの様々な変種をカバーするのに十分である。
我々は、分散還元や任意のサンプリングと誤りフィードバックと量子化を組み合わせたSGDの新しい変種を開発する。
論文 参考訳(メタデータ) (2020-10-23T10:46:31Z) - O(1) Communication for Distributed SGD through Two-Level Gradient
Averaging [0.0]
我々は,2段階勾配平均化(A2SGD)と呼ばれる戦略を導入し,すべての勾配を労働者1人当たりの局所的な平均値に統一する。
我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。
論文 参考訳(メタデータ) (2020-06-12T18:20:52Z) - Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。
非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文 参考訳(メタデータ) (2020-06-08T16:40:49Z) - Global Distance-distributions Separation for Unsupervised Person
Re-identification [93.39253443415392]
既存の教師なしのReIDアプローチは、距離ベースのマッチング/ランク付けを通じて正のサンプルと負のサンプルを正しく識別するのに失敗することが多い。
本研究では,2つの分布に対する大域的距離分布分離の制約を導入し,大域的視点から正と負のサンプルを明確に分離することを奨励する。
本研究では,本手法がベースラインを大幅に改善し,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2020-06-01T07:05:39Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。