論文の概要: On the Proof of Global Convergence of Gradient Descent for Deep ReLU
Networks with Linear Widths
- arxiv url: http://arxiv.org/abs/2101.09612v1
- Date: Sun, 24 Jan 2021 00:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:17:59.411479
- Title: On the Proof of Global Convergence of Gradient Descent for Deep ReLU
Networks with Linear Widths
- Title(参考訳): 線形幅を有する深層ReLUネットワークにおけるグラデーションのグローバル収束の証明について
- Authors: Quynh Nguyen
- Abstract要約: 我々は、すべての隠れた層の幅が少なくとも$Omega(N8)$$$(N$はトレーニングサンプルの数)である場合、勾配勾配が大域的最適に収束することを示した。
- 参考スコア(独自算出の注目度): 9.42944841156154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the global convergence of gradient descent for deep ReLU
networks under the square loss. For this setting, the current state-of-the-art
results show that gradient descent converges to a global optimum if the widths
of all the hidden layers scale at least as $\Omega(N^8)$ ($N$ being the number
of training samples). In this paper, we discuss a simple proof framework which
allows us to improve the existing over-parameterization condition to linear,
quadratic and cubic widths (depending on the type of initialization scheme
and/or the depth of the network).
- Abstract(参考訳): 本稿では,二乗損失下における深層RELUネットワークにおける勾配降下のグローバル収束について検討する。
この設定のために、現在の最先端の結果は、すべての隠れた層の幅が少なくとも$\omega(n^8)$ (n$はトレーニングサンプルの数である)でスケールすると、勾配降下がグローバル最適に収束することを示している。
本稿では,既存の超パラメータ条件を線形,二次,立方体幅(初期化スキームのタイプやネットワークの深さに依存する)に改善できる簡単な証明フレームワークについて述べる。
関連論文リスト
- The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - On the Global Convergence of Training Deep Linear ResNets [104.76256863926629]
我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
論文 参考訳(メタデータ) (2020-03-02T18:34:49Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z) - Global Convergence of Deep Networks with One Wide Layer Followed by
Pyramidal Topology [28.49901662584467]
深層ネットワークの場合、入力層に従えば1層$N$の幅が確保され、同様の保証が保証される。
残りの層は全て一定の幅を持つことができ、ピラミッドの位相を形成する。
論文 参考訳(メタデータ) (2020-02-18T20:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。