論文の概要: A global convergence theory for deep ReLU implicit networks via
over-parameterization
- arxiv url: http://arxiv.org/abs/2110.05645v1
- Date: Mon, 11 Oct 2021 23:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 06:32:41.785536
- Title: A global convergence theory for deep ReLU implicit networks via
over-parameterization
- Title(参考訳): 過剰パラメータ化による深層relu暗黙ネットワークの大域収束理論
- Authors: Tianxiang Gao, Hailiang Liu, Jia Liu, Hridesh Rajan, and Hongyang Gao
- Abstract要約: 暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
- 参考スコア(独自算出の注目度): 26.19122384935622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit deep learning has received increasing attention recently due to the
fact that it generalizes the recursive prediction rules of many commonly used
neural network architectures. Its prediction rule is provided implicitly based
on the solution of an equilibrium equation. Although a line of recent empirical
studies has demonstrated its superior performances, the theoretical
understanding of implicit neural networks is limited. In general, the
equilibrium equation may not be well-posed during the training. As a result,
there is no guarantee that a vanilla (stochastic) gradient descent (SGD)
training nonlinear implicit neural networks can converge. This paper fills the
gap by analyzing the gradient flow of Rectified Linear Unit (ReLU) activated
implicit neural networks. For an $m$-width implicit neural network with ReLU
activation and $n$ training samples, we show that a randomly initialized
gradient descent converges to a global minimum at a linear rate for the square
loss function if the implicit neural network is \textit{over-parameterized}. It
is worth noting that, unlike existing works on the convergence of (S)GD on
finite-layer over-parameterized neural networks, our convergence results hold
for implicit neural networks, where the number of layers is \textit{infinite}.
- Abstract(参考訳): 暗黙のディープラーニングは、多くの一般的なニューラルネットワークアーキテクチャの再帰的予測ルールを一般化するという事実から、近年注目を集めている。
その予測規則は平衡方程式の解に基づいて暗黙的に提供される。
最近の実証研究は、その優れた性能を示しているが、暗黙のニューラルネットワークの理論的理解は限られている。
一般に、平衡方程式は、訓練中にうまく配置されない。
その結果、非線形暗黙的ニューラルネットワークを訓練するバニラ勾配降下(SGD)が収束する保証はない。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流の解析により,そのギャップを埋める。
reluアクティベーションとn$トレーニングサンプルを備えた$m$-width暗黙的ニューラルネットワークでは、暗黙的ニューラルネットワークが \textit{over-parameterized} であれば、ランダムに初期化された勾配降下が正方形損失関数の線形レートでグローバル最小に収束することを示す。
有限層超パラメータ化ニューラルネットワーク上での(S)GDの収束に関する既存の研究とは異なり、我々の収束結果は暗黙のニューラルネットワークであり、ここではレイヤーの数は \textit{infinite} である。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression: A Distribution-Free Analysis [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクが$cO(eps_n2)$のシャープレートを示す。
本研究の結果は,トレーニングデータに分布的な仮定を必要としないことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - A Kernel-Expanded Stochastic Neural Network [10.837308632004644]
ディープニューラルネットワークは、トレーニングにおいて、しばしばローカルな最小限に閉じ込められる。
新しいカーネル拡張ニューラルネットワーク(K-StoNet)モデルは、潜在変数モデルとしてネットワークを再構成する。
モデルは命令正規化最適化(IRO)アルゴリズムを用いて容易に訓練することができる。
論文 参考訳(メタデータ) (2022-01-14T06:42:42Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。