論文の概要: On the Implicit Bias of Adam
- arxiv url: http://arxiv.org/abs/2309.00079v3
- Date: Thu, 5 Oct 2023 04:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 11:22:38.527107
- Title: On the Implicit Bias of Adam
- Title(参考訳): アダムの暗黙のバイアスについて
- Authors: Matias D. Cattaneo and Jason M. Klusowski and Boris Shigida
- Abstract要約: ODEに現れる項は損失勾配の2ノルムを罰するので、有限ステップサイズが解を暗黙的に正則化することを証明している。
また、数値実験を行い、証明された事実が一般化にどう影響するかを議論する。
- 参考スコア(独自算出の注目度): 7.842152902652216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In previous literature, backward error analysis was used to find ordinary
differential equations (ODEs) approximating the gradient descent trajectory. It
was found that finite step sizes implicitly regularize solutions because terms
appearing in the ODEs penalize the two-norm of the loss gradients. We prove
that the existence of similar implicit regularization in RMSProp and Adam
depends on their hyperparameters and the training stage, but with a different
"norm" involved: the corresponding ODE terms either penalize the (perturbed)
one-norm of the loss gradients or, on the contrary, hinder its decrease (the
latter case being typical). We also conduct numerical experiments and discuss
how the proven facts can influence generalization.
- Abstract(参考訳): 前回の文献では、勾配降下軌道を近似する常微分方程式(odes)を見つけるために後方誤差解析が用いられた。
ODEに現れる項は損失勾配の2ノルムを罰するので、有限ステップサイズは解を暗黙的に正則化することがわかった。
rmsprop と adam における同様の暗黙的正規化の存在は、それらのハイパーパラメータと訓練段階に依存するが、異なる「ノルム」が関係している: 対応する ode 項は損失勾配の(摂動的な)1ノルムをペナルティ化するか、逆にその減少を阻害する(後者の場合が典型的である)。
また,数値実験を行い,証明された事実が一般化にどのように影響を与えるかについて議論する。
関連論文リスト
- Benign overfitting in Fixed Dimension via Physics-Informed Learning with Smooth Inductive Bias [8.668428992331808]
我々は,線形逆問題に対処する際,カーネルリッジ(レス)回帰のためのソボレフノルム学習曲線を開発した。
この結果から, 逆問題におけるPDE演算子は分散を安定化し, 固定次元問題に対して良性オーバーフィッティングを行うことが可能であることがわかった。
論文 参考訳(メタデータ) (2024-06-13T14:54:30Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Penalising the biases in norm regularisation enforces sparsity [28.86954341732928]
この研究は、関数を表すのに必要なパラメータのノルムが、その第二微分の総変分によって与えられることを示し、$sqrt1+x2$ factorで重み付けされる。
特に、この重み付け係数はバイアス項のノルムが正規化されないときに消失する。
論文 参考訳(メタデータ) (2023-03-02T15:33:18Z) - On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。
我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2022-10-12T12:49:20Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。