論文の概要: Implicit Gradient Regularization
- arxiv url: http://arxiv.org/abs/2009.11162v3
- Date: Mon, 18 Jul 2022 20:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:36:06.756489
- Title: Implicit Gradient Regularization
- Title(参考訳): 暗黙的勾配正規化
- Authors: David G.T. Barrett and Benoit Dherin
- Abstract要約: 勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
- 参考スコア(独自算出の注目度): 18.391141066502644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent can be surprisingly good at optimizing deep neural networks
without overfitting and without explicit regularization. We find that the
discrete steps of gradient descent implicitly regularize models by penalizing
gradient descent trajectories that have large loss gradients. We call this
Implicit Gradient Regularization (IGR) and we use backward error analysis to
calculate the size of this regularization. We confirm empirically that implicit
gradient regularization biases gradient descent toward flat minima, where test
errors are small and solutions are robust to noisy parameter perturbations.
Furthermore, we demonstrate that the implicit gradient regularization term can
be used as an explicit regularizer, allowing us to control this gradient
regularization directly. More broadly, our work indicates that backward error
analysis is a useful theoretical approach to the perennial question of how
learning rate, model size, and parameter regularization interact to determine
the properties of overparameterized models optimized with gradient descent.
- Abstract(参考訳): 勾配降下は、過剰にフィットすることなく、明示的な正規化なしにディープニューラルネットワークを最適化するのに驚くほど優れている。
勾配降下の離散ステップは、損失勾配が大きい勾配降下軌跡をペナルティ化することにより、暗黙的にモデルを正則化する。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
実験により,暗黙の勾配正規化は,テスト誤差が小さく,解が雑音パラメータの摂動に対して頑健な平坦なミニマへの勾配降下の偏りを実証する。
さらに,暗黙の勾配正規化項を明示的な正規化として用いることができ,この勾配正規化を直接制御できることを示した。
より広義には, 回帰誤差解析は, 学習速度, モデルサイズ, パラメータの正規化が相互に作用し, 勾配降下に最適化された過パラメータモデルの特性を決定するという, 多年にわたる問題に対して有用な理論的アプローチであることを示す。
関連論文リスト
- Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - Explicit Regularization in Overparametrized Models via Noise Injection [14.492434617004932]
簡単な有限次元モデルに対して、小さな摂動が明示的な正則化をもたらすことを示す。
実験により,小摂動がバニラ勾配降下訓練よりも一般化性能の向上につながることが示された。
論文 参考訳(メタデータ) (2022-06-09T17:00:23Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - SGD Implicitly Regularizes Generalization Error [0.0]
勾配降下は、近傍の更新をデコレーションすることで一般化誤差を正規化する作用を示す。
これらの計算のさらなる改善について論じ、最適化の可能性についてコメントする。
論文 参考訳(メタデータ) (2021-04-10T23:10:14Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。