論文の概要: Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.16891v2
- Date: Fri, 29 Sep 2023 07:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 18:37:25.983265
- Title: Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks
- Title(参考訳): 多層ニューラルネットワークにおける勾配降下の一般化
- Authors: Puyu Wang, Yunwen Lei, Di Wang, Yiming Ying, Ding-Xuan Zhou
- Abstract要約: 多層NNに対する勾配降下(GD)の総合的安定性と一般化解析を行う。
2層NNと3層NNの両方において、GDアルゴリズムに対するO(1/sqrtn)$の過剰リスク率を導出する。
- 参考スコア(独自算出の注目度): 55.86300309474023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, significant progress has been made in understanding the
generalization of neural networks (NNs) trained by gradient descent (GD) using
the algorithmic stability approach. However, most of the existing research has
focused on one-hidden-layer NNs and has not addressed the impact of different
network scaling parameters. In this paper, we greatly extend the previous work
\cite{lei2022stability,richards2021stability} by conducting a comprehensive
stability and generalization analysis of GD for multi-layer NNs. For two-layer
NNs, our results are established under general network scaling parameters,
relaxing previous conditions. In the case of three-layer NNs, our technical
contribution lies in demonstrating its nearly co-coercive property by utilizing
a novel induction strategy that thoroughly explores the effects of
over-parameterization. As a direct application of our general findings, we
derive the excess risk rate of $O(1/\sqrt{n})$ for GD algorithms in both
two-layer and three-layer NNs. This sheds light on sufficient or necessary
conditions for under-parameterized and over-parameterized NNs trained by GD to
attain the desired risk rate of $O(1/\sqrt{n})$. Moreover, we demonstrate that
as the scaling parameter increases or the network complexity decreases, less
over-parameterization is required for GD to achieve the desired error rates.
Additionally, under a low-noise condition, we obtain a fast risk rate of
$O(1/n)$ for GD in both two-layer and three-layer NNs.
- Abstract(参考訳): 近年、アルゴリズム安定性アプローチを用いて勾配降下(GD)によって訓練されたニューラルネットワーク(NN)の一般化を理解するために大きな進歩がなされている。
しかし、既存の研究のほとんどは一層NNに重点を置いており、異なるネットワークスケーリングパラメータの影響に対処していない。
本稿では,多層nnに対するgdの包括的安定性と一般化解析を行うことにより,先行研究である \cite{lei2022stability,richards2021stability} を大きく拡張する。
2層NNでは,ネットワークスケーリングの一般的なパラメータに基づいて,従来の条件を緩和する。
3層NNの場合、我々の技術的貢献は、過度パラメータ化の効果を徹底的に探求する新しい誘導戦略を利用することで、ほぼコヒーレンシブな性質を示すことである。
一般的な知見の直接的な応用として、2層および3層NNのGDアルゴリズムに対して、O(1/\sqrt{n})$の過剰リスク率を導出する。
これは、gdが訓練した過小パラメータと過小パラメータのnnが所望のリスク率o(1/\sqrt{n})$を達成するのに必要な条件または必要条件に光を当てる。
さらに,スケーリングパラメータが増加するか,ネットワークの複雑性が低下すると,GDが所望の誤差率を達成するために過度なパラメータ化を必要としないことを示す。
さらに,低雑音条件下では,2層および3層nnにおいて,gdに対してo(1/n)$の高速リスク率を得る。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Regularizing Recurrent Neural Networks via Sequence Mixup [7.036759195546171]
我々は、元々フィードフォワードニューラルネットワークのために提案された一連の有望な正規化手法を拡張した。
提案手法は,単純なニューラルネットワークアーキテクチャの性能を生かしながら,複雑性の実装が容易である。
論文 参考訳(メタデータ) (2020-11-27T05:43:40Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。