論文の概要: Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2407.16944v4
- Date: Tue, 20 Aug 2024 01:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:15:20.112963
- Title: Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks
- Title(参考訳): Adaptive Gradient Regularization: ディープニューラルネットワークの高速で一般化可能な最適化手法
- Authors: Huixiu Jiang, Ling Yang, Yu Bao, Rutong Si, Sikun Yang,
- Abstract要約: 本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
- 参考スコア(独自算出の注目度): 5.507301894089302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic optimization plays a crucial role in the advancement of deep learning technologies. Over the decades, significant effort has been dedicated to improving the training efficiency and robustness of deep neural networks, via various strategies including gradient normalization (GN) and gradient centralization (GC). Nevertheless, to the best of our knowledge, no one has considered to capture the optimal gradient descent trajectory, by adaptively controlling gradient descent direction. To address this concern, this paper is the first attempt to study a new optimization technique for deep neural networks, using the sum normalization of a gradient vector as coefficients, to dynamically regularize gradients and thus to effectively control optimization direction. The proposed technique is hence named as the adaptive gradient regularization (AGR). It can be viewed as an adaptive gradient clipping method. The theoretical analysis reveals that the AGR can effectively smooth the loss landscape, and hence can significantly improve the training efficiency and model generalization performance. We note that AGR can greatly improve the training efficiency of vanilla optimizers' including Adan and AdamW, by adding only three lines of code. The final experiments conducted on image generation, image classification, and language representation, demonstrate that the AGR method can not only improve the training efficiency but also enhance the model generalization performance.
- Abstract(参考訳): 確率最適化は、ディープラーニング技術の進歩において重要な役割を果たす。
何十年もの間、勾配正規化(GN)や勾配集中化(GC)といった様々な戦略を通じて、ディープニューラルネットワークのトレーニング効率と堅牢性を改善するための重要な努力が続けられてきた。
それにもかかわらず、我々の知る限りでは、勾配降下方向を適応的に制御することで、最適勾配降下軌道を捉えることを誰も考えていない。
そこで本研究では,勾配ベクトルの和正規化を係数として用い,勾配を動的に正規化し,最適化方向を効果的に制御するディープニューラルネットワークの新しい最適化手法について検討する。
提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
これは適応的な勾配クリッピング法と見なすことができる。
理論解析により,AGRは損失景観を効果的に平滑にすることができ,トレーニング効率とモデル一般化性能を大幅に向上させることができることがわかった。
AGRは3行のコードを追加するだけで、AdanやAdamWを含む"バニラオプティマイザ"のトレーニング効率を大幅に改善することができます。
画像生成, 画像分類, 言語表現に関する最終実験は, AGR法が訓練効率を向上するだけでなく, モデル一般化性能を向上させることを実証している。
関連論文リスト
- Mitigating Gradient Overlap in Deep Residual Networks with Gradient Normalization for Improved Non-Convex Optimization [0.0]
ディープラーニングにおいて、Residual Networks(ResNets)は、消滅する問題に対処する上で有効であることが証明されている。
ResNetのスキップ接続はオーバーラップし、学習した変換とスキップ接続がグラデーションで結合される。
重なりを管理する手法としてZ-score Normalization (ZNorm) を検討した。
論文 参考訳(メタデータ) (2024-10-28T21:54:44Z) - WarpAdam: A new Adam optimizer based on Meta-Learning approach [0.0]
本研究ではメタラーニングからAdamへの'ウォード勾配下降'の概念を融合させる革新的なアプローチを紹介する。
適応行列 P 内に学習可能な歪み行列 P を導入することにより,多様なデータ分布にまたがるモデルの能力を高めることを目指す。
本研究は,理論的洞察と実証的評価を通じて,この新たなアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2024-09-06T12:51:10Z) - Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients [99.13839450032408]
一般的な問題を解決するための適応アルゴリズムのための普遍的な枠組みを設計することが望まれる。
特に,本フレームワークは,非収束的設定支援の下で適応的手法を提供する。
論文 参考訳(メタデータ) (2021-06-15T15:16:28Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。