論文の概要: Optimal Rates for Generalization of Gradient Descent for Deep ReLU Classification
- arxiv url: http://arxiv.org/abs/2510.02779v1
- Date: Fri, 03 Oct 2025 07:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.298299
- Title: Optimal Rates for Generalization of Gradient Descent for Deep ReLU Classification
- Title(参考訳): 深部ReLU分類のためのグラディエントDescenceの一般化のための最適速度
- Authors: Yuanfan Li, Yunwen Lei, Zheng-Chu Guo, Yiming Ying,
- Abstract要約: 我々は、最適化と一般化誤差を慎重に取り除き、深いReLUネットワークを有する勾配降下ネットワークの最適一般化率を確立する。
重要な技術的貢献は、基準モデル近傍でのアクティベーションパターンの新たな制御であり、勾配勾配で訓練された深いReLUネットワークに対して、よりシャープなRademacher複雑性を実現することである。
- 参考スコア(独自算出の注目度): 29.11075530919662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have significantly improved our understanding of the generalization performance of gradient descent (GD) methods in deep neural networks. A natural and fundamental question is whether GD can achieve generalization rates comparable to the minimax optimal rates established in the kernel setting. Existing results either yield suboptimal rates of $O(1/\sqrt{n})$, or focus on networks with smooth activation functions, incurring exponential dependence on network depth $L$. In this work, we establish optimal generalization rates for GD with deep ReLU networks by carefully trading off optimization and generalization errors, achieving only polynomial dependence on depth. Specifically, under the assumption that the data are NTK separable from the margin $\gamma$, we prove an excess risk rate of $\widetilde{O}(L^4 (1 + \gamma L^2) / (n \gamma^2))$, which aligns with the optimal SVM-type rate $\widetilde{O}(1 / (n \gamma^2))$ up to depth-dependent factors. A key technical contribution is our novel control of activation patterns near a reference model, enabling a sharper Rademacher complexity bound for deep ReLU networks trained with gradient descent.
- Abstract(参考訳): 近年の進歩により、ディープニューラルネットワークにおける勾配降下法(GD)の一般化性能の理解が大幅に向上した。
自然で基本的な問題は、GDがカーネル設定で確立された最小値の最適値に匹敵する一般化率を達成できるかどうかである。
既存の結果は、$O(1/\sqrt{n})$の最適化率を得るか、スムーズなアクティベーション関数を持つネットワークに焦点を合わせ、ネットワーク深さに指数的依存をもたらす。
本研究では,Deep ReLUネットワークを用いたGDの最適一般化率を確立し,最適化と一般化誤差を慎重に取り除き,深さへの多項式依存のみを実現する。
具体的には、データはマージン$\gamma$からNTK分離可能であるという仮定の下で、過大なリスクレートが$\widetilde{O}(L^4 (1 + \gamma L^2) / (n \gamma^2))$であることを証明する。
重要な技術的貢献は、基準モデル近傍でのアクティベーションパターンの新たな制御であり、勾配勾配で訓練された深いReLUネットワークに対して、よりシャープなRademacher複雑性を実現することである。
関連論文リスト
- Local Loss Optimization in the Infinite Width: Stable Parameterization of Predictive Coding Networks and Target Propagation [8.35644084613785]
局所目標の2つの代表的設計に対して、無限幅極限における最大更新パラメータ化(mu$P)を導入する。
深層線形ネットワークを解析した結果,PCの勾配は1次勾配とガウス・ニュートン様勾配の間に介在していることが判明した。
我々は、特定の標準設定において、無限幅制限のPCは、一階勾配とよりよく似た振る舞いをすることを示した。
論文 参考訳(メタデータ) (2024-11-04T11:38:27Z) - Sharp Generalization for Nonparametric Regression in Interpolation Space by Over-Parameterized Neural Networks Trained with Preconditioned Gradient Descent and Early-Stopping [19.988762532185884]
我々は、新しいプレコンディション付きグラディエントDescent(PGD)アルゴリズムを用いてニューラルネットワークを訓練する。
ターゲット関数が空間$[mathcal H_K]s'$ with $s' ge 3$ であるとき、PGD が $mathcal O(n-frac2alpha2alpha+1)$ のシャープ回帰率を達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Optimal Approximation and Learning Rates for Deep Convolutional Neural
Networks [17.075804626858748]
本稿では,ゼロパディングと最大プーリングを併用した深部畳み込みニューラルネットワークの近似と学習性能解析に着目する。
近似関数として,深度$L$の深部畳み込みニューラルネットワークの近似速度が,対数係数に最適化された次数$ (L2/log L)-2r/d $であることが証明された。
論文 参考訳(メタデータ) (2023-08-07T02:37:02Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently [34.438887960077025]
p$-$textsfGD$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを示す。
また、$p$-$textsfGD$はSGDと同じ方法で完全に並列であり、ディープニューラルネットワークのトレーニングに使用できることを示す。
論文 参考訳(メタデータ) (2022-05-25T14:33:13Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。