論文の概要: Convergence of Adam in Deep ReLU Networks via Directional Complexity and Kakeya Bounds
- arxiv url: http://arxiv.org/abs/2505.15013v1
- Date: Wed, 21 May 2025 01:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.810843
- Title: Convergence of Adam in Deep ReLU Networks via Directional Complexity and Kakeya Bounds
- Title(参考訳): 指向性複雑度とKakeya境界による深部ReLUネットワークにおけるAdamの収束
- Authors: Anupama Sridhar, Alexander Johansen,
- Abstract要約: Adamのような一階適応最適化手法は、現代のディープニューラルネットワークをトレーニングするためのデフォルトの選択肢である。
我々は,領域横断の制限を段階的に強化する多層改質フレームワークを開発した。
有効次元において,領域交差の数が指数的からほぼ直線的に崩壊することが証明された。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-order adaptive optimization methods like Adam are the default choices for training modern deep neural networks. Despite their empirical success, the theoretical understanding of these methods in non-smooth settings, particularly in Deep ReLU networks, remains limited. ReLU activations create exponentially many region boundaries where standard smoothness assumptions break down. \textbf{We derive the first \(\tilde{O}\!\bigl(\sqrt{d_{\mathrm{eff}}/n}\bigr)\) generalization bound for Adam in Deep ReLU networks and the first global-optimal convergence for Adam in the non smooth, non convex relu landscape without a global PL or convexity assumption.} Our analysis is based on stratified Morse theory and novel results in Kakeya sets. We develop a multi-layer refinement framework that progressively tightens bounds on region crossings. We prove that the number of region crossings collapses from exponential to near-linear in the effective dimension. Using a Kakeya based method, we give a tighter generalization bound than PAC-Bayes approaches and showcase convergence using a mild uniform low barrier assumption.
- Abstract(参考訳): Adamのような一階適応最適化手法は、現代のディープニューラルネットワークをトレーニングするためのデフォルトの選択肢である。
実験的な成功にもかかわらず、非滑らかな設定、特にDeep ReLUネットワークにおけるこれらの手法の理論的理解は依然として限られている。
ReLUアクティベーションは、標準滑らか性仮定が分解される領域境界を指数的に多くの領域境界に生成する。
最初の \(\tilde{O}\!
ディープReLUネットワークにおけるAdamの一般化と、大域PLや凸性仮定を伴わない非滑らかで非凸ルルーランドスケープにおけるAdamの初めての大域的最適収束である。
} 解析は, 階層化されたモース理論と, カキーア集合の新規な結果に基づく。
我々は,領域横断の制限を段階的に強化する多層改質フレームワークを開発した。
有効次元において,領域交差の数が指数的からほぼ直線的に崩壊することが証明された。
カキーア法を用いて、PAC-ベイズアプローチよりも厳密な一般化を与え、軽度の均一な低障壁仮定を用いて収束を示す。
関連論文リスト
- A Local Polyak-Lojasiewicz and Descent Lemma of Gradient Descent For Overparametrized Linear Models [6.734175048463699]
正方形損失を学習した2層線形ニューラルネットワークの勾配降下に対する線形収束率を導出した。
我々の収束分析は、事前の結果を改善するだけでなく、ステップサイズに対するより良い選択を示唆している。
論文 参考訳(メタデータ) (2025-05-16T19:57:22Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Global convergence of ResNets: From finite to infinite width using
linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
論文 参考訳(メタデータ) (2021-12-10T13:38:08Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。