論文の概要: When Will Gradient Regularization Be Harmful?
- arxiv url: http://arxiv.org/abs/2406.09723v1
- Date: Fri, 14 Jun 2024 05:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:03:43.259198
- Title: When Will Gradient Regularization Be Harmful?
- Title(参考訳): グラディエントな正規化はいつ有害になるのか?
- Authors: Yang Zhao, Hao Zhang, Xiuyuan Hu,
- Abstract要約: グラディエント正規化(GR)は、損失関数の上のノルムをペナル化することを目的としている。
本稿では,GRが適応最適化シナリオにおいて性能劣化を引き起こすことを明らかにする。
本稿では3つのGRウォームアップ戦略を提案し、それぞれがウォームアップコース中に一定の程度に正規化効果を緩和する。
- 参考スコア(独自算出の注目度): 13.406161843281042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient regularization (GR), which aims to penalize the gradient norm atop the loss function, has shown promising results in training modern over-parameterized deep neural networks. However, can we trust this powerful technique? This paper reveals that GR can cause performance degeneration in adaptive optimization scenarios, particularly with learning rate warmup. Our empirical and theoretical analyses suggest this is due to GR inducing instability and divergence in gradient statistics of adaptive optimizers at the initial training stage. Inspired by the warmup heuristic, we propose three GR warmup strategies, each relaxing the regularization effect to a certain extent during the warmup course to ensure the accurate and stable accumulation of gradients. With experiments on Vision Transformer family, we confirm the three GR warmup strategies can effectively circumvent these issues, thereby largely improving the model performance. Meanwhile, we note that scalable models tend to rely more on the GR warmup, where the performance can be improved by up to 3\% on Cifar10 compared to baseline GR. Code is available at \href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp}.
- Abstract(参考訳): 損失関数上の勾配ノルムをペナルティ化することを目的としたグラディエント正規化(GR)は、現代の過パラメータ化ディープニューラルネットワークのトレーニングにおいて有望な結果を示している。
しかし、この強力なテクニックを信頼できますか?
本稿では,GRが適応最適化シナリオ,特に学習率のウォームアップにおいて,性能劣化を引き起こすことを明らかにする。
我々の経験的・理論的分析は、GRが初期訓練段階における適応オプティマイザの勾配統計の不安定性とばらつきを誘導していることを示唆している。
ウォームアップ・ヒューリスティックにインスパイアされた3つのGRウォームアップ戦略を提案する。
The experiment on Vision Transformer family, we confirmed the three GR warmup strategy can be prevent these problem。
一方、スケーラブルモデルはGRウォームアップに依存する傾向にあり、ベースラインGRに比べてCifar10では最大3倍の性能向上が可能であることに留意する。
コードは \href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp} で公開されている。
関連論文リスト
- Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文 参考訳(メタデータ) (2024-12-16T13:48:40Z) - Improving Discrete Optimisation Via Decoupled Straight-Through Gumbel-Softmax [4.427325225595673]
提案手法は,複数のタスクやデータセットにまたがる広範な実験を通じて,元のST-GSを大幅に向上することを示す。
本研究は,ディープラーニングにおける離散最適化の改善に寄与する。
論文 参考訳(メタデータ) (2024-10-17T08:44:57Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks [5.507301894089302]
本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
論文 参考訳(メタデータ) (2024-07-24T02:23:18Z) - Loss Gradient Gaussian Width based Generalization and Optimization Guarantees [9.10505154108852]
我々は、Los Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から一般化と最適化を保証する。
有限和(確率)最適化におけるサンプルの再利用は、LGGWが小さい限り、経験的勾配を人口から逸脱させるものではないことを示す。
我々のLGGWの一般化と最適化の保証は、このタイプの最初の結果であり、予測器ラデマッハの複雑性に基づく解析の落とし穴を回避し、深層モデルの量的厳密な境界に対するかなりの保証を保っている。
論文 参考訳(メタデータ) (2024-06-11T20:46:32Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。