論文の概要: On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width
- arxiv url: http://arxiv.org/abs/2001.04878v1
- Date: Tue, 14 Jan 2020 16:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:07:01.558841
- Title: On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width
- Title(参考訳): 層幅を考慮したディープニューラルネットワークの凸挙動について
- Authors: Etai Littwin, Lior Wolf
- Abstract要約: より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
- 参考スコア(独自算出の注目度): 99.24399270311069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Hessian of neural networks can be decomposed into a sum of two matrices:
(i) the positive semidefinite generalized Gauss-Newton matrix G, and (ii) the
matrix H containing negative eigenvalues. We observe that for wider networks,
minimizing the loss with the gradient descent optimization maneuvers through
surfaces of positive curvatures at the start and end of training, and close to
zero curvatures in between. In other words, it seems that during crucial parts
of the training process, the Hessian in wide networks is dominated by the
component G. To explain this phenomenon, we show that when initialized using
common methodologies, the gradients of over-parameterized networks are
approximately orthogonal to H, such that the curvature of the loss surface is
strictly positive in the direction of the gradient.
- Abstract(参考訳): ニューラルネットワークのヘッセンは2つの行列の和に分解することができる。
i) 正半定値一般化ガウス-ニュートン行列 G, および
(ii)負の固有値を含む行列H
学習開始時と終了時に正曲率の面を通した勾配降下最適化による損失を最小化し,その間の曲率をゼロに近いものにすることを観察した。
言い換えれば、訓練過程の重要な部分において、広帯域のヘシアンはG成分によって支配されているように思われる。この現象を説明するために、共通手法を用いて初期化されると、過度パラメータ化されたネットワークの勾配はHにほぼ直交し、損失面の曲率が勾配の方向に厳密に正であることを示す。
関連論文リスト
- Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs [19.401271427657395]
勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
論文 参考訳(メタデータ) (2022-06-02T09:01:25Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Batch Normalization Orthogonalizes Representations in Deep Random
Networks [3.109481609083199]
我々は、深度、幅、深度表現の直交性の間の相互作用の非漸近的特徴を確立する。
直交性からの表現の偏差は、ネットワーク幅に逆比例する項までの深さで急速に減衰することを示す。
この結果は2つの主な意味を持つ: 1) 理論的には、深さが大きくなるにつれて、表現のコントラクトのワッサーシュタイン-2球への分布は、等方ガウス分布の周りにある。
論文 参考訳(メタデータ) (2021-06-07T21:14:59Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。