論文の概要: Robust Implicit Regularization via Weight Normalization
- arxiv url: http://arxiv.org/abs/2305.05448v4
- Date: Thu, 22 Aug 2024 22:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 20:28:29.813672
- Title: Robust Implicit Regularization via Weight Normalization
- Title(参考訳): 重み正規化によるロバスト入射規則化
- Authors: Hung-Hsu Chou, Holger Rauhut, Rachel Ward,
- Abstract要約: 重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
- 参考スコア(独自算出の注目度): 5.37610807422229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterized models may have many interpolating solutions; implicit regularization refers to the hidden preference of a particular optimization method towards a certain interpolating solution among the many. A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice. However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance. In this paper, we aim to close this gap by incorporating and analyzing gradient flow (continuous-time version of gradient descent) with weight normalization, where the weight vector is reparameterized in terms of polar coordinates, and gradient flow is applied to the polar coordinates. By analyzing key invariants of the gradient flow and using Lojasiewicz Theorem, we show that weight normalization also has an implicit bias towards sparse solutions in the diagonal linear model, but that in contrast to plain gradient flow, weight normalization enables a robust bias that persists even if the weights are initialized at practically large scale. Experiments suggest that the gains in both convergence speed and robustness of the implicit bias are improved dramatically by using weight normalization in overparameterized diagonal linear network models.
- Abstract(参考訳): 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。
現在確立されている研究のラインでは、勾配勾配の勾配は、深い線形ネットワークのトレーニングに使用する場合、低ランクやスパース解に対して暗黙の偏りを持つ傾向にあり、なぜ勾配勾配の勾配で訓練された過度パラメータ化されたニューラルネットワークモデルが実際に良い一般化性能を持つのかを説明している。
しかし、既存の2乗対象の理論は、しばしば訓練可能な重みの非常に小さな初期化を必要とするが、これは、より高速な収束とより優れた一般化性能のために、重みが実際に初期化される大きなスケールに反する。
本稿では, 重みベクトルを極座標で再パラメータ化し, 勾配流を極座標で適用することにより, 勾配流(連続時間勾配降下法)を重み正規化することにより, このギャップを埋めることを目的とする。
勾配流の鍵不変量の解析とロジャシエヴィチ理論を用いて、対角線モデルにおけるスパース解に対して重み正規化は暗黙の偏りを持つが、平らな勾配流とは対照的に、重み正規化は重みが実際に大規模に初期化されても頑健な偏りを持続することを示す。
実験により, 過パラメータ化対角線形ネットワークモデルにおける重み正規化を用いて, 収束速度と暗黙バイアスの頑健性の両方の利得を劇的に改善することが示唆された。
関連論文リスト
- Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-09-13T15:55:05Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Border Basis Computation with Gradient-Weighted Norm [5.863264019032882]
退化イデアルの近似境界基底に対する勾配重み付き正規化を提案する。
わずかな修正で、係数正規化を伴うアルゴリズムの解析は、勾配重み付き正規化と共に機能する。
論文 参考訳(メタデータ) (2021-01-02T08:29:51Z) - Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文 参考訳(メタデータ) (2020-10-24T14:34:56Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。