論文の概要: Robust Implicit Regularization via Weight Normalization
- arxiv url: http://arxiv.org/abs/2305.05448v1
- Date: Tue, 9 May 2023 13:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 19:32:38.627989
- Title: Robust Implicit Regularization via Weight Normalization
- Title(参考訳): 重み正規化によるロバスト入射規則化
- Authors: Hung-Hsu Chou, Holger Rauhut, Rachel Ward
- Abstract要約: 重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
- 参考スコア(独自算出の注目度): 4.689945062721168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterized models may have many interpolating solutions; implicit
regularization refers to the hidden preference of a particular optimization
method towards a certain interpolating solution among the many. A by now
established line of work has shown that (stochastic) gradient descent tends to
have an implicit bias towards low rank and/or sparse solutions when used to
train deep linear networks, explaining to some extent why overparameterized
neural network models trained by gradient descent tend to have good
generalization performance in practice. However, existing theory for
square-loss objectives often requires very small initialization of the
trainable weights, which is at odds with the larger scale at which weights are
initialized in practice for faster convergence and better generalization
performance. In this paper, we aim to close this gap by incorporating and
analyzing gradient descent with weight normalization, where the weight vector
is reparamterized in terms of polar coordinates, and gradient descent is
applied to the polar coordinates. By analyzing key invariants of the gradient
flow and using Lojasiewicz's Theorem, we show that weight normalization also
has an implicit bias towards sparse solutions in the diagonal linear model, but
that in contrast to plain gradient descent, weight normalization enables a
robust bias that persists even if the weights are initialized at practically
large scale. Experiments suggest that the gains in both convergence speed and
robustness of the implicit bias are improved dramatically by using weight
normalization in overparameterized diagonal linear network models.
- Abstract(参考訳): 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。
現在確立されている研究の行は、(統計的)勾配降下が、ディープリニアネットワークのトレーニングに使用する場合、低いランクや疎解に対して暗黙のバイアスを持つ傾向があることを示しており、勾配降下によって訓練された過パラメータニューラルネットワークモデルが実際に優れた一般化性能を持つ理由をある程度説明している。
しかし、既存の四角損失目的の理論は、訓練可能な重みの非常に小さな初期化を必要とすることが多く、これはより高速な収束とより良い一般化性能のために実際に重みが初期化されるより大きなスケールと相反する。
本稿では,重みベクトルを極座標で再パラメータ化し,勾配勾配を極座標に適用する重み正規化による勾配降下を組み込んで解析することにより,このギャップを埋めることを目的とする。
勾配流の重要な不変量を分析し、lojasiewiczの定理を用いて、重み正規化は対角線型モデルにおける疎解に対する暗黙のバイアスを持つが、平易な勾配降下とは対照的に、重み正規化は実際に大規模に初期化されても持続する頑健なバイアスを可能にする。
実験により, 重み正規化を用いた過パラメータ付き対角型線形ネットワークモデルにおいて, 収束速度と暗黙バイアスのロバスト性の両方が劇的に向上することが示唆された。
関連論文リスト
- Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-09-13T15:55:05Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Border Basis Computation with Gradient-Weighted Norm [5.863264019032882]
退化イデアルの近似境界基底に対する勾配重み付き正規化を提案する。
わずかな修正で、係数正規化を伴うアルゴリズムの解析は、勾配重み付き正規化と共に機能する。
論文 参考訳(メタデータ) (2021-01-02T08:29:51Z) - Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文 参考訳(メタデータ) (2020-10-24T14:34:56Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。