論文の概要: SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures
- arxiv url: http://arxiv.org/abs/2505.09572v1
- Date: Wed, 14 May 2025 17:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.545863
- Title: SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures
- Title(参考訳): SADニューラルネット:o-ミニマル構造による拡散勾配流れと漸近最適性
- Authors: Julian Kranz, Davide Gallon, Steffen Dereich, Arnulf Jentzen,
- Abstract要約: 本研究は, 連続的な微分可能活性化関数を持つ完全連結フィードフォワードニューラルネットワークの損失景観に対する勾配流について検討する。
勾配流が臨界点に収束するか、損失が臨界値に収束している間に無限大に分岐することを示す。
- 参考スコア(独自算出の注目度): 3.3123773366516645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study gradient flows for loss landscapes of fully connected feed forward neural networks with commonly used continuously differentiable activation functions such as the logistic, hyperbolic tangent, softplus or GELU function. We prove that the gradient flow either converges to a critical point or diverges to infinity while the loss converges to an asymptotic critical value. Moreover, we prove the existence of a threshold $\varepsilon>0$ such that the loss value of any gradient flow initialized at most $\varepsilon$ above the optimal level converges to it. For polynomial target functions and sufficiently big architecture and data set, we prove that the optimal loss value is zero and can only be realized asymptotically. From this setting, we deduce our main result that any gradient flow with sufficiently good initialization diverges to infinity. Our proof heavily relies on the geometry of o-minimal structures. We confirm these theoretical findings with numerical experiments and extend our investigation to real-world scenarios, where we observe an analogous behavior.
- Abstract(参考訳): 本研究は,ロジスティック,双曲タンジェント,ソフトプラス,GELU関数などの連続的な活性化機能を持つ完全連結フィードフォワードニューラルネットワークの損失景観に対する勾配流について検討する。
勾配流が臨界点に収束するか、損失が漸近臨界値に収束している間に無限大に分岐することを示す。
さらに、最適レベル以上で初期化された任意の勾配流の損失値がそれに収束する閾値$\varepsilon>0$の存在を証明した。
多項式対象関数と十分に大きなアーキテクチャとデータセットに対して、最適損失値はゼロであり、漸近的にしか実現できないことを証明する。
この設定から、十分に優れた初期化を伴う勾配流は無限大に分岐する、という主な結果が導かれる。
我々の証明は、o-ミニマル構造の幾何学に大きく依存している。
我々は,これらの理論的知見を数値実験で確認し,実世界のシナリオに拡張し,類似した振る舞いを観察する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - A convergence result of a continuous model of deep learning via Łojasiewicz--Simon inequality [0.0]
これは、ディープニューラルネットワーク(DNN)の連続的なモデルのプロセスを表現する、ワッサースタイン型フローに焦点をあてる。
まず、L2正則化下でのモデルの平均損失に対する存在arを確立する。
フロー最適化時の時間として,損失の傾きの存在を示す。
論文 参考訳(メタデータ) (2023-11-26T17:44:29Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Convergence and Implicit Regularization Properties of Gradient Descent
for Deep Residual Networks [7.090165638014331]
一定の層幅とスムーズな活性化関数を持つ深層残留ネットワークのトレーニングにおいて,勾配勾配の線形収束性を大域最小限に証明する。
トレーニングされた重みは、層指数の関数として、ネットワークの深さが無限大になる傾向にあるため、H"古い"スケーリング制限が連続であることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:50:28Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - When does gradient descent with logistic loss interpolate using deep
networks with smoothed ReLU activations? [51.1848572349154]
固定幅深層ネットワークに適用された勾配勾配がロジスティック損失をゼロにする条件を確立する。
解析はSwishやHuberized ReLUといったReLUのスムーズな近似に適用する。
論文 参考訳(メタデータ) (2021-02-09T18:04:37Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。