論文の概要: Deep Linear Networks Dynamics: Low-Rank Biases Induced by Initialization
Scale and L2 Regularization
- arxiv url: http://arxiv.org/abs/2106.15933v1
- Date: Wed, 30 Jun 2021 09:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 12:36:04.983326
- Title: Deep Linear Networks Dynamics: Low-Rank Biases Induced by Initialization
Scale and L2 Regularization
- Title(参考訳): ディープ線形ネットワークダイナミクス:初期化スケールとL2規則化による低ランクバイアス
- Authors: Arthur Jacot, Fran\c{c}ois Ged, Franck Gabriel, Berfin \c{S}im\c{s}ek,
Cl\'ement Hongler
- Abstract要約: 勾配勾配勾配から得られる線形写像のランクは,パラメータに$L_2$正規化を加えることによりどのように影響を受けるかを検討する。
パラメータに$L_p$-Schatten(quasi)ノルムを加えると、線形写像上の$L_p$-Schatten(quasi)ノルムのコストが加算される。
いくつかの設定では、これらの局所的なミニマはグローバルなミニマよりも一般化可能であることを数値的に観察する。
- 参考スコア(独自算出の注目度): 9.799637101641151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For deep linear networks (DLN), various hyperparameters alter the dynamics of
training dramatically. We investigate how the rank of the linear map found by
gradient descent is affected by (1) the initialization norm and (2) the
addition of $L_{2}$ regularization on the parameters. For (1), we study two
regimes: (1a) the linear/lazy regime, for large norm initialization; (1b) a
\textquotedbl saddle-to-saddle\textquotedbl{} regime for small initialization
norm. In the (1a) setting, the dynamics of a DLN of any depth is similar to
that of a standard linear model, without any low-rank bias. In the (1b)
setting, we conjecture that throughout training, gradient descent approaches a
sequence of saddles, each corresponding to linear maps of increasing rank,
until reaching a minimal rank global minimum. We support this conjecture with a
partial proof and some numerical experiments. For (2), we show that adding a
$L_{2}$ regularization on the parameters corresponds to the addition to the
cost of a $L_{p}$-Schatten (quasi)norm on the linear map with $p=\frac{2}{L}$
(for a depth-$L$ network), leading to a stronger low-rank bias as $L$ grows.
The effect of $L_{2}$ regularization on the loss surface depends on the depth:
for shallow networks, all critical points are either strict saddles or global
minima, whereas for deep networks, some local minima appear. We numerically
observe that these local minima can generalize better than global ones in some
settings.
- Abstract(参考訳): 深層線形ネットワーク(DLN)では、様々なハイパーパラメータがトレーニングのダイナミクスを劇的に変える。
本研究では,(1)初期化ノルムと(2)パラメータに対する$L_{2}$正規化の追加により,勾配勾配から得られる線形写像の階数がどのように影響を受けるかを検討する。
1)では、(1a)大ノルム初期化のための線形/怠慢な規則、(1b)小ノルム初期化のための「textquotedbl saddle-to-saddle\textquotedbl{}」という2つの規則について検討する。
1a) の設定では、任意の深さのdlnのダイナミクスは、低ランクバイアスを伴わずに標準線形モデルと類似している。
1b) 設定では、トレーニングを通して勾配降下は、最小限の大域的極小に到達するまで、増大する階数の線型写像に対応する一連のサドルに近づいたと推測する。
我々はこの予想を部分的証明といくつかの数値実験で支持する。
例えば、パラメータに$L_{2}$正規化を加えると、$L_{p}$-Schatten (quasi)normが$p=\frac{2}{L}$(深さ-$L$ネットワークの場合)の線型写像に加算され、$L$が大きくなるにつれてより強い低ランクバイアスが生じることを示す。
損失面に対する$L_{2}$正規化の効果は深さに依存する:浅いネットワークでは全ての臨界点は厳密なサドルか大域的なミニマであるが、深いネットワークではいくつかの局所的なミニマが現れる。
我々は、これらの局所的ミニマは、いくつかの設定においてグローバルのものよりも一般化できることを数値的に観察する。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning [1.4050802766699084]
本稿では,ディープラーニング(DL)ネットワークにおける教師あり学習のシナリオについて考察する。
DLネットワークの出力層におけるユークリッド計量に対する勾配流を選択する。
論文 参考訳(メタデータ) (2023-11-27T02:12:02Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing [30.508036898655114]
プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。
正規化がない場合の勾配降下は、グリーディプルーニングに適さないモデル、すなわち、多くの列が最大値に匹敵する$ell$ノルムを持つことができる。
以上の結果から,グリーディ・プルーニング+ファインチューニングがより小さなモデルに繋がる理由について,より厳密な考察が得られた。
論文 参考訳(メタデータ) (2023-03-20T21:05:44Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Implicit Regularization Towards Rank Minimization in ReLU Networks [34.41953136999683]
ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
論文 参考訳(メタデータ) (2022-01-30T09:15:44Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。