論文の概要: Generalization Error Bounds for Deep Neural Networks Trained by SGD
- arxiv url: http://arxiv.org/abs/2206.03299v2
- Date: Mon, 29 May 2023 06:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:07:50.826944
- Title: Generalization Error Bounds for Deep Neural Networks Trained by SGD
- Title(参考訳): SGDによる深部ニューラルネットワークの一般化誤差境界
- Authors: Mingze Wang, Chao Ma
- Abstract要約: 勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
- 参考スコア(独自算出の注目度): 3.148524502470734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization error bounds for deep neural networks trained by stochastic
gradient descent (SGD) are derived by combining a dynamical control of an
appropriate parameter norm and the Rademacher complexity estimate based on
parameter norms. The bounds explicitly depend on the loss along the training
trajectory, and work for a wide range of network architectures including
multilayer perceptron (MLP) and convolutional neural networks (CNN). Compared
with other algorithm-depending generalization estimates such as uniform
stability-based bounds, our bounds do not require $L$-smoothness of the
nonconvex loss function, and apply directly to SGD instead of Stochastic
Langevin gradient descent (SGLD). Numerical results show that our bounds are
non-vacuous and robust with the change of optimizer and network
hyperparameters.
- Abstract(参考訳): 確率勾配降下(sgd)によって訓練された深層ニューラルネットワークの一般化誤差境界は、パラメータノルムに基づく適切なパラメータノルムの動的制御とラデマシェ複雑性推定を組み合わせたものである。
境界はトレーニング軌道に沿った損失に明示的に依存し、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)を含む幅広いネットワークアーキテクチャで動作する。
均一な安定性に基づく境界のようなアルゴリズム依存の一般化推定と比較すると、我々の境界は非凸損失関数の$L$-smoothnessを必要とせず、SGLD(Stochastic Langevin gradient descent)の代わりに直接SGDに適用できる。
数値計算の結果,オプティマイザとネットワークハイパーパラメータの変化に伴い,境界は空白かつ頑健であることが判明した。
関連論文リスト
- Adaptive Multilevel Neural Networks for Parametric PDEs with Error Estimation [0.0]
ニューラルネットワークアーキテクチャは高次元パラメータ依存偏微分方程式(pPDE)を解くために提示される
モデルデータのパラメータを対応する有限要素解にマッピングするために構築される。
適応有限要素法(AFEM)で生成される粗いグリッド解と一連の補正を出力する。
論文 参考訳(メタデータ) (2024-03-19T11:34:40Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks [55.86300309474023]
多層NNに対する勾配降下(GD)の総合的安定性と一般化解析を行う。
2層NNと3層NNの両方において、GDアルゴリズムに対するO(1/sqrtn)$の過剰リスク率を導出する。
論文 参考訳(メタデータ) (2023-05-26T12:51:38Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。