論文の概要: SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures
- arxiv url: http://arxiv.org/abs/2505.09572v1
- Date: Wed, 14 May 2025 17:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.545863
- Title: SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures
- Title(参考訳): SADニューラルネット:o-ミニマル構造による拡散勾配流れと漸近最適性
- Authors: Julian Kranz, Davide Gallon, Steffen Dereich, Arnulf Jentzen,
- Abstract要約: 本研究は, 連続的な微分可能活性化関数を持つ完全連結フィードフォワードニューラルネットワークの損失景観に対する勾配流について検討する。
勾配流が臨界点に収束するか、損失が臨界値に収束している間に無限大に分岐することを示す。
- 参考スコア(独自算出の注目度): 3.3123773366516645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study gradient flows for loss landscapes of fully connected feed forward neural networks with commonly used continuously differentiable activation functions such as the logistic, hyperbolic tangent, softplus or GELU function. We prove that the gradient flow either converges to a critical point or diverges to infinity while the loss converges to an asymptotic critical value. Moreover, we prove the existence of a threshold $\varepsilon>0$ such that the loss value of any gradient flow initialized at most $\varepsilon$ above the optimal level converges to it. For polynomial target functions and sufficiently big architecture and data set, we prove that the optimal loss value is zero and can only be realized asymptotically. From this setting, we deduce our main result that any gradient flow with sufficiently good initialization diverges to infinity. Our proof heavily relies on the geometry of o-minimal structures. We confirm these theoretical findings with numerical experiments and extend our investigation to real-world scenarios, where we observe an analogous behavior.
- Abstract(参考訳): 本研究は,ロジスティック,双曲タンジェント,ソフトプラス,GELU関数などの連続的な活性化機能を持つ完全連結フィードフォワードニューラルネットワークの損失景観に対する勾配流について検討する。
勾配流が臨界点に収束するか、損失が漸近臨界値に収束している間に無限大に分岐することを示す。
さらに、最適レベル以上で初期化された任意の勾配流の損失値がそれに収束する閾値$\varepsilon>0$の存在を証明した。
多項式対象関数と十分に大きなアーキテクチャとデータセットに対して、最適損失値はゼロであり、漸近的にしか実現できないことを証明する。
この設定から、十分に優れた初期化を伴う勾配流は無限大に分岐する、という主な結果が導かれる。
我々の証明は、o-ミニマル構造の幾何学に大きく依存している。
我々は,これらの理論的知見を数値実験で確認し,実世界のシナリオに拡張し,類似した振る舞いを観察する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - A convergence result of a continuous model of deep learning via Łojasiewicz--Simon inequality [0.0]
これは、ディープニューラルネットワーク(DNN)の連続的なモデルのプロセスを表現する、ワッサースタイン型フローに焦点をあてる。
まず、L2正則化下でのモデルの平均損失に対する存在arを確立する。
フロー最適化時の時間として,損失の傾きの存在を示す。
論文 参考訳(メタデータ) (2023-11-26T17:44:29Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。