論文の概要: Deep linear networks for regression are implicitly regularized towards flat minima
- arxiv url: http://arxiv.org/abs/2405.13456v2
- Date: Mon, 28 Oct 2024 17:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:02.245282
- Title: Deep linear networks for regression are implicitly regularized towards flat minima
- Title(参考訳): 回帰のための深い線形ネットワークは、平らなミニマに向けて暗黙的に正規化される
- Authors: Pierre Marion, Lénaïc Chizat,
- Abstract要約: 最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
最小化器のシャープネスは, 深さとともに線形に成長する。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
- 参考スコア(独自算出の注目度): 4.806579822134391
- License:
- Abstract: The largest eigenvalue of the Hessian, or sharpness, of neural networks is a key quantity to understand their optimization dynamics. In this paper, we study the sharpness of deep linear networks for univariate regression. Minimizers can have arbitrarily large sharpness, but not an arbitrarily small one. Indeed, we show a lower bound on the sharpness of minimizers, which grows linearly with depth. We then study the properties of the minimizer found by gradient flow, which is the limit of gradient descent with vanishing learning rate. We show an implicit regularization towards flat minima: the sharpness of the minimizer is no more than a constant times the lower bound. The constant depends on the condition number of the data covariance matrix, but not on width or depth. This result is proven both for a small-scale initialization and a residual initialization. Results of independent interest are shown in both cases. For small-scale initialization, we show that the learned weight matrices are approximately rank-one and that their singular vectors align. For residual initialization, convergence of the gradient flow for a Gaussian initialization of the residual network is proven. Numerical experiments illustrate our results and connect them to gradient descent with non-vanishing learning rate.
- Abstract(参考訳): ニューラルネットワークのHessianの最大の固有値(シャープネス)は、最適化のダイナミクスを理解するための重要な量である。
本稿では,一変量回帰のための深部線形ネットワークのシャープさについて検討する。
最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
実際、我々は最小化器のシャープネスの低い境界を示し、深さとともに線形に成長する。
次に, 勾配流から得られる最小化器の特性について検討し, 学習速度の低下に伴う勾配降下の限界について検討した。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
定数はデータ共分散行列の条件数に依存するが、幅や深さには依存しない。
この結果は、小規模初期化と残留初期化の両方で証明されている。
どちらの場合においても、独立した利害関係の結果が示される。
小型初期化では、学習したウェイト行列がほぼランク1であり、それらの特異ベクトルが整列していることが示される。
残留初期化には、残留ネットワークのガウス初期化に対する勾配流の収束が証明される。
数値実験では, 実験結果を例示し, 非消滅学習率で勾配降下に接続する。
関連論文リスト
- The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Implicit Regularization Towards Rank Minimization in ReLU Networks [34.41953136999683]
ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
論文 参考訳(メタデータ) (2022-01-30T09:15:44Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Towards Resolving the Implicit Bias of Gradient Descent for Matrix
Factorization: Greedy Low-Rank Learning [19.82453283089643]
マトリックスファクタリゼーションは、降下勾配の暗黙の正規化を調べるためのシンプルで自然なテストベッドです。
深さ2行列分解では、無限小初期化を伴う流れは単純な階数最小化アルゴリズムと数学的に等価であることを示す。
論文 参考訳(メタデータ) (2020-12-17T18:57:01Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Unique Properties of Flat Minima in Deep Networks [44.21198403467404]
2次損失で訓練された線形ニューラルネットワークにおける平坦なミニマを特徴付ける。
実験により、これらの性質は実際に訓練された線形モデルと非線形モデルの両方の特徴であることが示されている。
論文 参考訳(メタデータ) (2020-02-11T22:01:19Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。