論文の概要: AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs
- arxiv url: http://arxiv.org/abs/2210.06364v1
- Date: Wed, 12 Oct 2022 16:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:05:57.841103
- Title: AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs
- Title(参考訳): AdaNorm: CNNのための適応的なグラディエントノルム補正ベースの最適化
- Authors: Shiv Ram Dubey, Satish Kumar Singh, Bidyut Baran Chaudhuri
- Abstract要約: 勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
- 参考スコア(独自算出の注目度): 23.523389372182613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stochastic gradient descent (SGD) optimizers are generally used to train
the convolutional neural networks (CNNs). In recent years, several adaptive
momentum based SGD optimizers have been introduced, such as Adam, diffGrad,
Radam and AdaBelief. However, the existing SGD optimizers do not exploit the
gradient norm of past iterations and lead to poor convergence and performance.
In this paper, we propose a novel AdaNorm based SGD optimizers by correcting
the norm of gradient in each iteration based on the adaptive training history
of gradient norm. By doing so, the proposed optimizers are able to maintain
high and representive gradient throughout the training and solves the low and
atypical gradient problems. The proposed concept is generic and can be used
with any existing SGD optimizer. We show the efficacy of the proposed AdaNorm
with four state-of-the-art optimizers, including Adam, diffGrad, Radam and
AdaBelief. We depict the performance improvement due to the proposed optimizers
using three CNN models, including VGG16, ResNet18 and ResNet50, on three
benchmark object recognition datasets, including CIFAR10, CIFAR100 and
TinyImageNet. Code: \url{https://github.com/shivram1987/AdaNorm}.
- Abstract(参考訳): 確率勾配降下(SGD)最適化器は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される。
近年、Adam、diffGrad、Radam、AdaBeliefなどの適応運動量に基づくSGDオプティマイザが導入されている。
しかし、既存のSGDオプティマイザは過去のイテレーションの勾配基準を活用せず、収束と性能が劣っている。
本稿では,グラデーションノルムの適応的トレーニング履歴に基づいて,各イテレーションにおける勾配のノルムを補正し,新しいadanormベースのsgdオプティマイザを提案する。
これにより,提案手法はトレーニング中,高次かつ表現的な勾配を維持でき,低次および非定型的な勾配問題を解くことができる。
提案された概念は汎用的であり、既存のSGDオプティマイザで使用することができる。
本稿では,Adam,diffGrad,Radam,AdaBeliefの4つの最先端オプティマイザを用いたAdaNormの有効性を示す。
本稿では,CIFAR10,CIFAR100,TinyImageNetを含む3つのベンチマークオブジェクト認識データセット上で,VGG16,ResNet18,ResNet50の3つのCNNモデルを用いた最適化手法による性能改善について述べる。
コード: \url{https://github.com/shivram 1987/adanorm}。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - On Suppressing Range of Adaptive Stepsizes of Adam to Improve Generalisation Performance [2.71467552808655]
我々はAdamの適応段差の範囲を抑えるために階層統計を利用する。
結果のアルゴリズムはSET-Adamと呼ばれ、SETは3つの操作の簡単な表記法である。
SET-Adamは、ImageNet上でResNet18をトレーニングするためにAdamやAdaBeliefよりも高い検証精度を生成する。
論文 参考訳(メタデータ) (2023-02-02T11:46:23Z) - Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks [12.90962626557934]
コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。
提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
論文 参考訳(メタデータ) (2022-07-19T04:38:01Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。