論文の概要: Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2103.14689v1
- Date: Fri, 26 Mar 2021 18:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 16:39:27.861189
- Title: Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークの性能向上のためのadam様最適化アルゴリズムの利用
- Authors: Loris Nanni, Gianluca Maguolo, Alessandra Lumini
- Abstract要約: 勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
- 参考スコア(独自算出の注目度): 82.61182037130405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) is the main approach for training deep
networks: it moves towards the optimum of the cost function by iteratively
updating the parameters of a model in the direction of the gradient of the loss
evaluated on a minibatch. Several variants of SGD have been proposed to make
adaptive step sizes for each parameter (adaptive gradient) and take into
account the previous updates (momentum). Among several alternative of SGD the
most popular are AdaGrad, AdaDelta, RMSProp and Adam which scale coordinates of
the gradient by square roots of some form of averaging of the squared
coordinates in the past gradients and automatically adjust the learning rate on
a parameter basis. In this work, we compare Adam based variants based on the
difference between the present and the past gradients, the step size is
adjusted for each parameter. We run several tests benchmarking proposed methods
using medical image data. The experiments are performed using ResNet50
architecture neural network. Moreover, we have tested ensemble of networks and
the fusion with ResNet50 trained with stochastic gradient descent. To combine
the set of ResNet50 the simple sum rule has been applied. Proposed ensemble
obtains very high performance, it obtains accuracy comparable or better than
actual state of the art. To improve reproducibility and research efficiency the
MATLAB source code used for this research is available at GitHub:
https://github.com/LorisNanni.
- Abstract(参考訳): 確率勾配降下 (SGD) は、最小バッチで評価された損失の勾配方向のモデルのパラメータを反復的に更新することにより、コスト関数の最適化に向けて、ディープネットワークをトレーニングするための主要なアプローチである。
SGDのいくつかの変種は、各パラメータ(適応勾配)に対して適応的なステップサイズを作成し、以前の更新(モメンタム)を考慮している。
sgdの代替として、adagrad、adadelta、rmsprop、adamがあり、過去の勾配における2乗座標の平均化のある種の形の平方根による勾配の座標をスケールし、パラメータベースで学習率を自動的に調整する。
本研究では,現在と過去の勾配の違いに基づいてAdamに基づく変種を比較し,各パラメータのステップサイズを調整した。
医用画像データを用いて提案手法のベンチマークを行う。
実験はResNet50アーキテクチャニューラルネットワークを用いて行われる。
さらに,確率勾配降下法で訓練されたresnet50とネットワークのアンサンブルと融合実験を行った。
ResNet50のセットを組み合わせるために、単純な総和ルールが適用された。
提案されたアンサンブルは、非常に高いパフォーマンスを得られ、実際の技術と同等かそれ以上の精度が得られる。
再現性と研究効率を改善するために、この研究で使用されるMATLABソースコードはGitHubで入手できる。
関連論文リスト
- Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Softmax Gradient Tampering: Decoupling the Backward Pass for Improved
Fitting [8.072117741487046]
我々は、ニューラルネットワークの後方通過の勾配を変更する技術であるSoftmax Gradient Tamperingを紹介する。
我々は,ConvNetのソフトマックス勾配を変更することで,トレーニング精度が向上することを示した。
論文 参考訳(メタデータ) (2021-11-24T13:47:36Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。