論文の概要: When Will Gradient Regularization Be Harmful?
- arxiv url: http://arxiv.org/abs/2406.09723v1
- Date: Fri, 14 Jun 2024 05:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:03:43.259198
- Title: When Will Gradient Regularization Be Harmful?
- Title(参考訳): グラディエントな正規化はいつ有害になるのか?
- Authors: Yang Zhao, Hao Zhang, Xiuyuan Hu,
- Abstract要約: グラディエント正規化(GR)は、損失関数の上のノルムをペナル化することを目的としている。
本稿では,GRが適応最適化シナリオにおいて性能劣化を引き起こすことを明らかにする。
本稿では3つのGRウォームアップ戦略を提案し、それぞれがウォームアップコース中に一定の程度に正規化効果を緩和する。
- 参考スコア(独自算出の注目度): 13.406161843281042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient regularization (GR), which aims to penalize the gradient norm atop the loss function, has shown promising results in training modern over-parameterized deep neural networks. However, can we trust this powerful technique? This paper reveals that GR can cause performance degeneration in adaptive optimization scenarios, particularly with learning rate warmup. Our empirical and theoretical analyses suggest this is due to GR inducing instability and divergence in gradient statistics of adaptive optimizers at the initial training stage. Inspired by the warmup heuristic, we propose three GR warmup strategies, each relaxing the regularization effect to a certain extent during the warmup course to ensure the accurate and stable accumulation of gradients. With experiments on Vision Transformer family, we confirm the three GR warmup strategies can effectively circumvent these issues, thereby largely improving the model performance. Meanwhile, we note that scalable models tend to rely more on the GR warmup, where the performance can be improved by up to 3\% on Cifar10 compared to baseline GR. Code is available at \href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp}.
- Abstract(参考訳): 損失関数上の勾配ノルムをペナルティ化することを目的としたグラディエント正規化(GR)は、現代の過パラメータ化ディープニューラルネットワークのトレーニングにおいて有望な結果を示している。
しかし、この強力なテクニックを信頼できますか?
本稿では,GRが適応最適化シナリオ,特に学習率のウォームアップにおいて,性能劣化を引き起こすことを明らかにする。
我々の経験的・理論的分析は、GRが初期訓練段階における適応オプティマイザの勾配統計の不安定性とばらつきを誘導していることを示唆している。
ウォームアップ・ヒューリスティックにインスパイアされた3つのGRウォームアップ戦略を提案する。
The experiment on Vision Transformer family, we confirmed the three GR warmup strategy can be prevent these problem。
一方、スケーラブルモデルはGRウォームアップに依存する傾向にあり、ベースラインGRに比べてCifar10では最大3倍の性能向上が可能であることに留意する。
コードは \href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp} で公開されている。
関連論文リスト
- An Adaptive Gradient Regularization Method [2.9767565026354186]
適応勾配正規化(AGR)と呼ばれる勾配ベクトルの等級に基づく新しい最適化手法を提案する。
AGRはすべての次元の勾配ベクトルを係数ベクトルとして正規化し、バニラ勾配によって勾配とその係数ベクトルの積を減算する。
AGRは、より安定したトレーニングプロセスとより良いパフォーマンスで、損失関数リプシッツネスを改善することができることを示す。
論文 参考訳(メタデータ) (2024-07-24T02:23:18Z) - Loss Gradient Gaussian Width based Generalization and Optimization Guarantees [9.10505154108852]
我々は、Los Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から一般化と最適化を保証する。
有限和(確率)最適化におけるサンプルの再利用は、LGGWが小さい限り、経験的勾配を人口から逸脱させるものではないことを示す。
我々のLGGWの一般化と最適化の保証は、このタイプの最初の結果であり、予測器ラデマッハの複雑性に基づく解析の落とし穴を回避し、深層モデルの量的厳密な境界に対するかなりの保証を保っている。
論文 参考訳(メタデータ) (2024-06-11T20:46:32Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - SDGMNet: Statistic-based Dynamic Gradient Modulation for Local
Descriptor Learning [44.69439245287881]
本稿では,局所記述子学習における三重項損失を改善するためにSDGMNetという動的勾配変調を提案する。
本稿では,一般的な三重項に基づく損失のバック伝播に関する深い解析を行い,距離測定のための包含角度を導入する。
我々の新しい記述子は、パッチ検証、マッチング、検索タスクを含む標準ベンチマークにおける過去の最先端技術を上回っている。
論文 参考訳(メタデータ) (2021-06-08T15:10:31Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。