論文の概要: Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time
- arxiv url: http://arxiv.org/abs/2107.10868v1
- Date: Thu, 22 Jul 2021 18:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 02:19:14.371930
- Title: Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time
- Title(参考訳): 局所sgdは多項式時間における過パラメータニューラルネットワークを最適化する
- Authors: Yuyang Deng, Mehrdad Mahdavi
- Abstract要約: 局所(S)GD(またはFedAvg)は、Rectified Linear Unit(ReLU)アクティベーション機能を持つ2層ニューラルネットワークを最適化することができる。
ReLUネットワークは勾配リプシッツ性を認めていないが、局所モデルと平均モデルとの勾配差はそれほど変化しない。
- 参考スコア(独自算出の注目度): 15.04034188283642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we prove that Local (S)GD (or FedAvg) can optimize two-layer
neural networks with Rectified Linear Unit (ReLU) activation function in
polynomial time. Despite the established convergence theory of Local SGD on
optimizing general smooth functions in communication-efficient distributed
optimization, its convergence on non-smooth ReLU networks still eludes full
theoretical understanding. The key property used in many Local SGD analysis on
smooth function is gradient Lipschitzness, so that the gradient on local models
will not drift far away from that on averaged model. However, this decent
property does not hold in networks with non-smooth ReLU activation function. We
show that, even though ReLU network does not admit gradient Lipschitzness
property, the difference between gradients on local models and average model
will not change too much, under the dynamics of Local SGD. We validate our
theoretical results via extensive experiments. This work is the first to show
the convergence of Local SGD on non-smooth functions, and will shed lights on
the optimization theory of federated training of deep neural networks.
- Abstract(参考訳): 本稿では,局所(S)GD (FedAvg) が多項式時間でRectified Linear Unit (ReLU) 活性化機能を持つ2層ニューラルネットワークを最適化できることを証明する。
通信効率のよい分散最適化における一般滑らかな関数の最適化に関する局所SGDの確立された収束理論にもかかわらず、非滑らかなReLUネットワークへの収束は、完全に理論的理解を欠いている。
滑らかな関数に対する多くの局所SGD解析で用いられる重要な性質は勾配リプシッツ性であり、局所モデルの勾配が平均モデルから遠く離れないようにしている。
しかし、このまともな性質は、非スムースreluアクティベーション関数を持つネットワークでは保持されない。
reluネットワークは勾配リプシッツ特性を認めていないが,局所モデルにおける勾配と平均モデルとの差は,局所sgdのダイナミクスの下ではそれほど変化しない。
我々は広範な実験を通じて理論結果を検証する。
この研究は、非滑らかな関数に対する局所SGDの収束を示す最初のものであり、ディープニューラルネットワークのフェデレートトレーニングの最適化理論に光を当てる。
関連論文リスト
- Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials [15.718093624695552]
我々は、リアプノフポテンシャルと最適化に基づいて、グラディエント・ランゲヴィン・ダイナミクス(SGLD)のグローバル・ミニマへの収束を分析する。
2) SGLD に対する最初の有限勾配複雑性、3) 連続時間ランゲヴィンダイナミクスが最適化に成功するなら、次に離散時間 SGLD が穏やかな正則性仮定の下で成功することを証明する。
論文 参考訳(メタデータ) (2024-07-05T05:34:10Z) - GD doesn't make the cut: Three ways that non-differentiability affects neural network training [5.439020425819001]
本稿では,非微分可能関数(NGDM)に適用される手法と,微分可能関数に対する古典的勾配降下(GD)との区別を批判的に検討する。
我々の研究は、強い仮定に対する過度な信頼から生まれた、影響力のある文学におけるアルゴリズムの批判的な誤解を識別する。
論文 参考訳(メタデータ) (2024-01-16T15:11:29Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - FL-NTK: A Neural Tangent Kernel-based Framework for Federated Learning
Convergence Analysis [27.022551495550676]
本稿では,FLの勾配降下によって訓練された過減化ReLUニューラルネットワークに対応するFL-NTK(Learning Neural Kernel)について,新しい収束解析法を提案する。
理論的には、FL-NTKは線形学習パラメータを適切に調整した自明な速度で大域最適解に収束する。
論文 参考訳(メタデータ) (2021-05-11T13:05:53Z) - An improved convergence analysis for decentralized online stochastic
non-convex optimization [17.386715847732468]
本稿では,GT-Loakjasiewics(GT-Loakjasiewics)と呼ばれる手法が,GT-Loakjasiewics(GT-Loakjasiewics)が現在の収束率を満たすことを示す。
結果はすぐに適用できるだけでなく、現在知られている最高の収束率にも適用できる。
論文 参考訳(メタデータ) (2020-08-10T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。