論文の概要: Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2207.09066v1
- Date: Tue, 19 Jul 2022 04:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:57:40.941861
- Title: Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks
- Title(参考訳): モーメント中央化に基づく畳み込みニューラルネットワークのためのグラディエントDescentOptimizers
- Authors: Sumanth Sadu, Shiv Ram Dubey, SR Sreeja
- Abstract要約: コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。
提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
- 参考スコア(独自算出の注目度): 12.90962626557934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have shown very appealing performance
for many computer vision applications. The training of CNNs is generally
performed using stochastic gradient descent (SGD) based optimization
techniques. The adaptive momentum-based SGD optimizers are the recent trends.
However, the existing optimizers are not able to maintain a zero mean in the
first-order moment and struggle with optimization. In this paper, we propose a
moment centralization-based SGD optimizer for CNNs. Specifically, we impose the
zero mean constraints on the first-order moment explicitly. The proposed moment
centralization is generic in nature and can be integrated with any of the
existing adaptive momentum-based optimizers. The proposed idea is tested with
three state-of-the-art optimization techniques, including Adam, Radam, and
Adabelief on benchmark CIFAR10, CIFAR100, and TinyImageNet datasets for image
classification. The performance of the existing optimizers is generally
improved when integrated with the proposed moment centralization. Further, The
results of the proposed moment centralization are also better than the existing
gradient centralization. The analytical analysis using the toy example shows
that the proposed method leads to a shorter and smoother optimization
trajectory. The source code is made publicly available at
\url{https://github.com/sumanthsadhu/MC-optimizer}.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
CNNのトレーニングは一般に確率勾配降下(SGD)に基づく最適化手法を用いて行われる。
適応運動量に基づくSGD最適化器は最近のトレンドである。
しかし、既存のオプティマイザは1次モーメントにおいてゼロ平均を維持することができず、最適化に苦労する。
本稿では,CNNのためのモーメント集中型SGDオプティマイザを提案する。
具体的には、1次モーメントにゼロ平均制約を明示的に課す。
提案されたモーメント集中は本質的に汎用的であり、既存の適応運動量に基づくオプティマイザと統合することができる。
提案手法は,画像分類のためのベンチマークcifar10,cifar100,tinyimagenetデータセット上でadam,radam,adabeliefの3つの最先端最適化技術を用いてテストされた。
提案するモーメント集中化と統合することで,既存のオプティマイザの性能が向上する。
さらに,提案するモーメント集中化の結果は,既存の勾配集中化よりも良好である。
おもちゃの例を用いた解析分析により,提案手法がより短くスムーズな最適化軌道につながることが示された。
ソースコードは \url{https://github.com/sumanthsadhu/MC-optimizer} で公開されている。
関連論文リスト
- AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
本稿では,適応型プレコンディショニング勾配のためのフィッシャー情報行列に対して,ブロック対角近似を利用する適応型2次のAdaFisherを提案する。
AdaFisher は精度と収束速度の両方において SOTA よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される
既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。
本稿では,AdaNormをベースとした新しいSGDを提案する。
論文 参考訳(メタデータ) (2022-10-12T16:17:25Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Robust Deep Compressive Sensing with Recurrent-Residual Structural
Constraints [0.0]
既存のディープラーニング(CS)手法は、適応的なオンライン最適化を無視するか、コストのかかる反復的な再構築に依存している。
この研究は、R$2$CS-NETと呼ばれる再帰的構造制約を持つ新しいイメージCSフレームワークを探索する。
適応型オンライン最適化を効率的にブリッジする最初のディープCSフレームワークとして、R$2$CS-NETは、オンライン最適化の堅牢性とディープラーニング手法の効率性と非線形能力を統合する。
論文 参考訳(メタデータ) (2022-07-15T05:56:13Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Analytical Characterization and Design Space Exploration for
Optimization of CNNs [10.15406080228806]
ループタイルやループ置換を含むループレベルの最適化は、データ移動を減らすための基本的な変換です。
本稿では,マルチコアCPU上でのCNNの最適ループレベル最適化構成を求めるための解析モデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T21:36:52Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。