論文の概要: Local SGD Accelerates Convergence by Exploiting Second Order Information
of the Loss Function
- arxiv url: http://arxiv.org/abs/2305.15013v2
- Date: Fri, 26 May 2023 05:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 10:40:42.045194
- Title: Local SGD Accelerates Convergence by Exploiting Second Order Information
of the Loss Function
- Title(参考訳): 局所sgdは損失関数の2次情報を利用して収束を加速する
- Authors: Linxuan Pan, Shenghui Song
- Abstract要約: 局所統計勾配勾配(L-SGD)は分散機械学習手法において非常に有効であることが証明されている。
本稿では,L-SGDの強みを理解するための新たな視点を提供する。
- 参考スコア(独自算出の注目度): 1.7767466724342065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With multiple iterations of updates, local statistical gradient descent
(L-SGD) has been proven to be very effective in distributed machine learning
schemes such as federated learning. In fact, many innovative works have shown
that L-SGD with independent and identically distributed (IID) data can even
outperform SGD. As a result, extensive efforts have been made to unveil the
power of L-SGD. However, existing analysis failed to explain why the multiple
local updates with small mini-batches of data (L-SGD) can not be replaced by
the update with one big batch of data and a larger learning rate (SGD). In this
paper, we offer a new perspective to understand the strength of L-SGD. We
theoretically prove that, with IID data, L-SGD can effectively explore the
second order information of the loss function. In particular, compared with
SGD, the updates of L-SGD have much larger projection on the eigenvectors of
the Hessian matrix with small eigenvalues, which leads to faster convergence.
Under certain conditions, L-SGD can even approach the Newton method. Experiment
results over two popular datasets validate the theoretical results.
- Abstract(参考訳): 複数の更新を繰り返して、局所統計勾配降下(L-SGD)は、フェデレート学習のような分散機械学習スキームに非常に有効であることが証明されている。
実際、多くの革新的な研究により、独立かつ同一に分散された(IID)データを持つL-SGDがSGDより優れていることが示されている。
その結果、L-SGDのパワーを明らかにするために広範囲な努力がなされた。
しかし、既存の分析では、小さなミニバッチデータ(L-SGD)による複数のローカル更新が、1つの大きなバッチデータとより大きな学習率(SGD)で更新に置き換えられない理由を説明できなかった。
本稿では,L-SGDの強みを理解するための新たな視点を提供する。
IIDデータを用いてL-SGDが損失関数の2次情報を効果的に探索できることを理論的に証明する。
特に、SGDと比較して、L-SGDの更新は、小さな固有値を持つヘッセン行列の固有ベクトルに対してはるかに大きい射影を持ち、より速く収束する。
ある条件下では、L-SGD はニュートン法にもアプローチできる。
実験結果は、2つの一般的なデータセットで理論的結果を検証する。
関連論文リスト
- The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Why (and When) does Local SGD Generalize Better than SGD? [46.993699881100454]
ローカルSGDは、大規模トレーニングのための通信効率のよいSGDの亜種である。
本稿では,微分方程式(SDE)近似に基づいて局所SGDがより一般化する理由(およびいつ)を理解することを目的とする。
論文 参考訳(メタデータ) (2023-03-02T12:56:52Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Heavy-Tail Phenomenon in Decentralized SGD [33.63000461985398]
分散勾配降下(DE-SGD)における重鎖の出現について検討する。
また,分権化が尾の挙動に及ぼす影響についても検討した。
我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにする。
論文 参考訳(メタデータ) (2022-05-13T14:47:04Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - SGD with a Constant Large Learning Rate Can Converge to Local Maxima [4.014524824655106]
我々は、勾配降下が奇妙で望ましくない振る舞いを示す可能性があることを示す最悪の最適化問題を構築する。
具体的には、SGDが局所的な最大値に収束するようにランドスケープとデータ分布を構築する。
本結果は,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。
論文 参考訳(メタデータ) (2021-07-25T10:12:18Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Why Does Multi-Epoch Training Help? [62.946840431501855]
経験的に、トレーニングデータ(マルチパスSGD)を1回通過する方が、トレーニングデータ(ワンパスSGD)のみを1回通過するSGDよりもはるかに優れたリスクバウンド性能を有することが観察されている。
本稿では,トレーニングデータの複数パスが,特定の状況下での性能向上に有効である理由を理論的根拠として提示する。
論文 参考訳(メタデータ) (2021-05-13T00:52:25Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文 参考訳(メタデータ) (2019-12-30T08:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。