論文の概要: Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation
- arxiv url: http://arxiv.org/abs/2410.10533v1
- Date: Mon, 14 Oct 2024 14:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:05:04.654457
- Title: Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation
- Title(参考訳): データ駆動型深層学習における大域最小化への非収束性:ReLUアクティベーションを伴う深部ニューラルネットワークのトレーニングにおいて、アダムと確率勾配降下最適化は確実に大域最小化に収束しない
- Authors: Sonja Hannibal, Arnulf Jentzen, Do Minh Thang,
- Abstract要約: 厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。
本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
- 参考スコア(独自算出の注目度): 3.6185342807265415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning methods - consisting of a class of deep neural networks (DNNs) trained by a stochastic gradient descent (SGD) optimization method - are nowadays key tools to solve data driven supervised learning problems. Despite the great success of SGD methods in the training of DNNs, it remains a fundamental open problem of research to explain the success and the limitations of such methods in rigorous theoretical terms. In particular, even in the standard setup of data driven supervised learning problems, it remained an open research problem to prove (or disprove) that SGD methods converge in the training of DNNs with the popular rectified linear unit (ReLU) activation function with high probability to global minimizers in the optimization landscape. In this work we answer this question negatively. Specifically, in this work we prove for a large class of SGD methods that the considered optimizer does with high probability not converge to global minimizers of the optimization problem. It turns out that the probability to not converge to a global minimizer converges at least exponentially quickly to one as the width of the first hidden layer of the ANN and the depth of the ANN, respectively, increase. The general non-convergence results of this work do not only apply to the plain vanilla standard SGD method but also to a large class of accelerated and adaptive SGD methods such as the momentum SGD, the Nesterov accelerated SGD, the Adagrad, the RMSProp, the Adam, the Adamax, the AMSGrad, and the Nadam optimizers.
- Abstract(参考訳): ディープラーニング手法 - 確率勾配勾配勾配(SGD)最適化法によって訓練されたディープニューラルネットワーク(DNN)のクラスで構成されている - は、現在、データ駆動型教師あり学習問題を解決するための重要なツールである。
DNNの訓練においてSGD法が大きな成功を収めたにもかかわらず、厳密な理論的用語でそのような手法の成功と限界を説明することは研究の根本的なオープンな問題である。
特に、データ駆動型教師あり学習問題の標準設定においても、SGD法がDNNのトレーニングに収束し、一般的な修正線形単位(ReLU)アクティベーション関数が最適化ランドスケープのグローバル最小化に高い確率で収束することを証明(または不証明)するには、オープンな研究課題のままである。
この研究では、我々はこの疑問に否定的に答える。
具体的には、最適化問題の大域的最小化に収束しない確率の高い最適化者が行う、大規模なSGD手法の証明を行う。
その結果、大域最小化器に収束しない確率は、それぞれANNの第1隠れ層の幅とANNの深さが増大するにつれて、少なくとも指数関数的に1に収束することがわかった。
この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、運動量SGD、ネステロフ加速SGD、アダグラード、RMSProp、アダム、アダックス、AMSGrad、ナダムオプティマイザといった多くの加速および適応SGD法にも適用される。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Non-convergence to global minimizers for Adam and stochastic gradient
descent optimization and constructions of local minimizers in the training of
artificial neural networks [6.708125191843434]
SGDメソッドがANNのトレーニングに成功している理由を厳格に説明することは、依然としてオープンな問題である。
我々は、SGD法が高い確率で大域最小化器を見つけることができることを証明した。
さらに、SGD法が高い確率で行うようなANNの訓練では、大域的な最小化に収束することができないことを示す。
論文 参考訳(メタデータ) (2024-02-07T16:14:04Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Membrane Potential Distribution Adjustment and Parametric Surrogate
Gradient in Spiking Neural Networks [3.485537704990941]
この問題を回避し、SNNをゼロから訓練するために、SG戦略を調査し、適用した。
パラメトリックサロゲート勾配(PSG)法を提案し,SGを反復的に更新し,最終的に最適なサロゲート勾配パラメータを決定する。
実験結果から,提案手法は時間によるバックプロパゲーション(BPTT)アルゴリズムと容易に統合可能であることが示された。
論文 参考訳(メタデータ) (2023-04-26T05:02:41Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Convergence proof for stochastic gradient descent in the training of
deep neural networks with ReLU activation for constant target functions [1.7149364927872015]
勾配降下(SGD)型最適化法はディープニューラルネットワーク(DNN)の訓練において非常に効果的に機能する
本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。
論文 参考訳(メタデータ) (2021-12-13T11:45:36Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。