論文の概要: Robust Implicit Regularization via Weight Normalization
- arxiv url: http://arxiv.org/abs/2305.05448v3
- Date: Fri, 23 Feb 2024 07:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:26:37.522076
- Title: Robust Implicit Regularization via Weight Normalization
- Title(参考訳): 重み正規化によるロバスト入射規則化
- Authors: Hung-Hsu Chou, Holger Rauhut, Rachel Ward
- Abstract要約: 重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
- 参考スコア(独自算出の注目度): 6.042206709451915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterized models may have many interpolating solutions; implicit
regularization refers to the hidden preference of a particular optimization
method towards a certain interpolating solution among the many. A by now
established line of work has shown that (stochastic) gradient descent tends to
have an implicit bias towards low rank and/or sparse solutions when used to
train deep linear networks, explaining to some extent why overparameterized
neural network models trained by gradient descent tend to have good
generalization performance in practice.However, existing theory for square-loss
objectives often requires very small initialization of the trainable weights,
which is at odds with the larger scale at which weights are initialized in
practice for faster convergence and better generalization performance. In this
paper, we aim to close this gap by incorporating and analyzing gradient flow
(continuous-time version of gradient descent) with weight normalization, where
the weight vector is reparameterized in terms of polar coordinates, and
gradient flow is applied to the polar coordinates. By analyzing key invariants
of the gradient flow and using Lojasiewicz Theorem, we show that weight
normalization also has an implicit bias towards sparse solutions in the
diagonal linear model, but that in contrast to plain gradient flow, weight
normalization enables a robust bias that persists even if the weights are
initialized at practically large scale. Experiments suggest that the gains in
both convergence speed and robustness of the implicit bias are improved
dramatically by using weight normalization in overparameterized diagonal linear
network models.
- Abstract(参考訳): 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。
A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice.However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance.
本稿では,重みベクトルが極座標で再パラメータ化され,極座標に勾配流れが適用されるような,重み正規化を伴う勾配流れ(勾配降下の連続時間バージョン)を組み込んで解析することにより,このギャップを解消することを目的とする。
勾配流の重要な不変量を分析し、lojasiewiczの定理を用いて、重み正規化は対角線形モデルにおける疎解に対する暗黙のバイアスを持つが、平易な勾配流とは対照的に、重み正規化は実際に大規模に初期化されても持続する頑健なバイアスを可能にする。
実験により, 重み正規化を用いた過パラメータ付き対角型線形ネットワークモデルにおいて, 収束速度と暗黙バイアスのロバスト性の両方が劇的に向上することが示唆された。
関連論文リスト
- Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-09-13T15:55:05Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Border Basis Computation with Gradient-Weighted Norm [5.863264019032882]
退化イデアルの近似境界基底に対する勾配重み付き正規化を提案する。
わずかな修正で、係数正規化を伴うアルゴリズムの解析は、勾配重み付き正規化と共に機能する。
論文 参考訳(メタデータ) (2021-01-02T08:29:51Z) - Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文 参考訳(メタデータ) (2020-10-24T14:34:56Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。