論文の概要: Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2207.09066v1
- Date: Tue, 19 Jul 2022 04:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:57:40.941861
- Title: Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks
- Title(参考訳): モーメント中央化に基づく畳み込みニューラルネットワークのためのグラディエントDescentOptimizers
- Authors: Sumanth Sadu, Shiv Ram Dubey, SR Sreeja
- Abstract要約: コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。
提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
- 参考スコア(独自算出の注目度): 12.90962626557934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have shown very appealing performance
for many computer vision applications. The training of CNNs is generally
performed using stochastic gradient descent (SGD) based optimization
techniques. The adaptive momentum-based SGD optimizers are the recent trends.
However, the existing optimizers are not able to maintain a zero mean in the
first-order moment and struggle with optimization. In this paper, we propose a
moment centralization-based SGD optimizer for CNNs. Specifically, we impose the
zero mean constraints on the first-order moment explicitly. The proposed moment
centralization is generic in nature and can be integrated with any of the
existing adaptive momentum-based optimizers. The proposed idea is tested with
three state-of-the-art optimization techniques, including Adam, Radam, and
Adabelief on benchmark CIFAR10, CIFAR100, and TinyImageNet datasets for image
classification. The performance of the existing optimizers is generally
improved when integrated with the proposed moment centralization. Further, The
results of the proposed moment centralization are also better than the existing
gradient centralization. The analytical analysis using the toy example shows
that the proposed method leads to a shorter and smoother optimization
trajectory. The source code is made publicly available at
\url{https://github.com/sumanthsadhu/MC-optimizer}.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
CNNのトレーニングは一般に確率勾配降下(SGD)に基づく最適化手法を用いて行われる。
適応運動量に基づくSGD最適化器は最近のトレンドである。
しかし、既存のオプティマイザは1次モーメントにおいてゼロ平均を維持することができず、最適化に苦労する。
本稿では,CNNのためのモーメント集中型SGDオプティマイザを提案する。
具体的には、1次モーメントにゼロ平均制約を明示的に課す。
提案されたモーメント集中は本質的に汎用的であり、既存の適応運動量に基づくオプティマイザと統合することができる。
提案手法は,画像分類のためのベンチマークcifar10,cifar100,tinyimagenetデータセット上でadam,radam,adabeliefの3つの最先端最適化技術を用いてテストされた。
提案するモーメント集中化と統合することで,既存のオプティマイザの性能が向上する。
さらに,提案するモーメント集中化の結果は,既存の勾配集中化よりも良好である。
おもちゃの例を用いた解析分析により,提案手法がより短くスムーズな最適化軌道につながることが示された。
ソースコードは \url{https://github.com/sumanthsadhu/MC-optimizer} で公開されている。
関連論文リスト
- Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Hybrid Decentralized Optimization: Leveraging Both First- and Zeroth-Order Optimizers for Faster Convergence [31.59453616577858]
分散システムは、よりノイズの多いゼロオーダーエージェントに耐えられるが、最適化プロセスにおいてそのようなエージェントの恩恵を受けることができる。
本研究の結果は,共同最適化作業に貢献しながらも,凸および非零次最適化の目的を達成できる。
論文 参考訳(メタデータ) (2022-10-14T10:54:11Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Analytical Characterization and Design Space Exploration for
Optimization of CNNs [10.15406080228806]
ループタイルやループ置換を含むループレベルの最適化は、データ移動を減らすための基本的な変換です。
本稿では,マルチコアCPU上でのCNNの最適ループレベル最適化構成を求めるための解析モデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T21:36:52Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。