論文の概要: Overparameterization of deep ResNet: zero loss and mean-field analysis
- arxiv url: http://arxiv.org/abs/2105.14417v1
- Date: Sun, 30 May 2021 02:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 12:26:20.170216
- Title: Overparameterization of deep ResNet: zero loss and mean-field analysis
- Title(参考訳): 深部ResNetの過パラメータ化:ゼロ損失と平均場解析
- Authors: Zhiyan Ding and Shi Chen and Qin Li and Stephen Wright
- Abstract要約: データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
- 参考スコア(独自算出の注目度): 19.45069138853531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding parameters in a deep neural network (NN) that fit training data is a
nonconvex optimization problem, but a basic first-order optimization method
(gradient descent) finds a global solution with perfect fit in many practical
situations. We examine this phenomenon for the case of Residual Neural Networks
(ResNet) with smooth activation functions in a limiting regime in which both
the number of layers (depth) and the number of neurons in each layer (width) go
to infinity. First, we use a mean-field-limit argument to prove that the
gradient descent for parameter training becomes a partial differential equation
(PDE) that characterizes gradient flow for a probability distribution in the
large-NN limit. Next, we show that the solution to the PDE converges in the
training time to a zero-loss solution. Together, these results imply that
training of the ResNet also gives a near-zero loss if the Resnet is large
enough. We give estimates of the depth and width needed to reduce the loss
below a given threshold, with high probability.
- Abstract(参考訳): トレーニングデータに適合する深層ニューラルネットワーク(nn)内のパラメータを見つけることは、非凸最適化問題であるが、基本的な一階最適化法(勾配降下法)は、多くの実用的な状況において完全なグローバルソリューションを見つける。
本研究では,Residual Neural Networks(ResNet)において,各層(深度)と各層(幅)のニューロン数の両方が無限大となる制限条件下でのスムーズな活性化機能を有する現象について検討する。
まず, パラメータトレーニングの勾配降下が偏微分方程式(pde)となり, 大nn限界の確率分布に対する勾配流れを特徴付けることを証明するために, 平均場-極限引数を用いる。
次に、PDEの解は学習時間内にゼロロス解に収束することを示す。
これらの結果は、resnetが十分に大きい場合、resnetのトレーニングもほぼゼロの損失をもたらすことを示している。
所定の閾値以下で損失を減少させるのに必要な深さと幅を高い確率で見積もる。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Do Residual Neural Networks discretize Neural Ordinary Differential
Equations? [8.252615417740879]
まず、ResNetの隠れ状態軌跡と対応するNeural ODEの解との距離を定量化する。
線形残差関数と十分小さい初期損失を持つResNetに対して,この滑らかさは勾配降下によって保たれることを示す。
論文 参考訳(メタデータ) (2022-05-29T09:29:34Z) - Global convergence of ResNets: From finite to infinite width using
linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
論文 参考訳(メタデータ) (2021-12-10T13:38:08Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - On the Global Convergence of Gradient Descent for multi-layer ResNets in
the mean-field regime [19.45069138853531]
一階法は、グローバル化された体制におけるグローバルな最適性を見出す。
ResNetが十分に大きく、精度と信頼度に応じて深さ幅がある場合、一階法はデータに適合する最適化を見つけることができる。
論文 参考訳(メタデータ) (2021-10-06T17:16:09Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。