論文の概要: On the Global Convergence of Training Deep Linear ResNets
- arxiv url: http://arxiv.org/abs/2003.01094v1
- Date: Mon, 2 Mar 2020 18:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:49:00.490265
- Title: On the Global Convergence of Training Deep Linear ResNets
- Title(参考訳): 深部線形ResNetのグローバル収束について
- Authors: Difan Zou and Philip M. Long and Quanquan Gu
- Abstract要約: 我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
- 参考スコア(独自算出の注目度): 104.76256863926629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the convergence of gradient descent (GD) and stochastic gradient
descent (SGD) for training $L$-hidden-layer linear residual networks (ResNets).
We prove that for training deep residual networks with certain linear
transformations at input and output layers, which are fixed throughout
training, both GD and SGD with zero initialization on all hidden weights can
converge to the global minimum of the training loss. Moreover, when
specializing to appropriate Gaussian random linear transformations, GD and SGD
provably optimize wide enough deep linear ResNets. Compared with the global
convergence result of GD for training standard deep linear networks (Du & Hu
2019), our condition on the neural network width is sharper by a factor of
$O(\kappa L)$, where $\kappa$ denotes the condition number of the covariance
matrix of the training data. We further propose a modified identity input and
output transformations, and show that a $(d+k)$-wide neural network is
sufficient to guarantee the global convergence of GD/SGD, where $d,k$ are the
input and output dimensions respectively.
- Abstract(参考訳): 本研究では,l$-hidden-layer linear residual network (resnets) の学習のための勾配降下 (gd) と確率勾配降下 (sgd) の収束について検討した。
入力層と出力層に一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合、GDとSGDはいずれも、隠れた重みをゼロに初期化することで、トレーニング損失の最小限に収束できることを示す。
さらに、適切なガウス的ランダムな線形変換に特化する場合、GDとSGDは十分に広い線形ResNetを適切に最適化する。
標準ディープリニアネットワークトレーニングのためのgdのグローバル収束結果(du & hu 2019)と比較すると、ニューラルネットワーク幅の条件は、トレーニングデータの共分散行列の条件数を表す$o(\kappa l)$でシャープになる。
さらに、修正されたid入力と出力変換を提案し、$(d+k)$-wideニューラルネットワークは、それぞれ$d,k$が入出力次元であるgd/sgdのグローバル収束を保証するのに十分であることを示す。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。