論文の概要: Reducing Bias in Deep Learning Optimization: The RSGDM Approach
- arxiv url: http://arxiv.org/abs/2409.15314v1
- Date: Thu, 5 Sep 2024 16:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:05:48.756193
- Title: Reducing Bias in Deep Learning Optimization: The RSGDM Approach
- Title(参考訳): ディープラーニング最適化におけるバイアス低減:RSGDMアプローチ
- Authors: Honglin Qin, Hongye Zheng, Bingxing Wang, Zhizhong Wu, Bingyao Liu, Yuanfang Yang,
- Abstract要約: 現在広く使われている1次ディープラーニングには、非適応型学習率Descentsと適応型学習率Descentsが含まれる。
本稿では,差分補正に基づくRSGDMアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, widely used first-order deep learning optimizers include non-adaptive learning rate optimizers and adaptive learning rate optimizers. The former is represented by SGDM (Stochastic Gradient Descent with Momentum), while the latter is represented by Adam. Both of these methods use exponential moving averages to estimate the overall gradient. However, estimating the overall gradient using exponential moving averages is biased and has a lag. This paper proposes an RSGDM algorithm based on differential correction. Our contributions are mainly threefold: 1) Analyze the bias and lag brought by the exponential moving average in the SGDM algorithm. 2) Use the differential estimation term to correct the bias and lag in the SGDM algorithm, proposing the RSGDM algorithm. 3) Experiments on the CIFAR datasets have proven that our RSGDM algorithm is superior to the SGDM algorithm in terms of convergence accuracy.
- Abstract(参考訳): 現在広く使われている1次ディープラーニングオプティマイザには、非適応型学習率オプティマイザと適応型学習率オプティマイザがある。
前者はSGDM(Stochastic Gradient Descent with Momentum)、後者はAdamである。
これらの手法はいずれも指数移動平均を用いて全体勾配を推定する。
しかし,指数移動平均を用いて全体勾配を推定することは偏りがあり,遅延がある。
本稿では,差分補正に基づくRSGDMアルゴリズムを提案する。
私たちの貢献は主に3倍です。
1) SGDMアルゴリズムにおいて指数移動平均によるバイアスとラグを解析する。
2) 差分推定項を用いてSGDMアルゴリズムのバイアスと遅延を補正し,RSGDMアルゴリズムを提案する。
3) CIFARデータセットを用いた実験により,我々のRSGDMアルゴリズムは収束精度においてSGDMアルゴリズムよりも優れていることが示された。
関連論文リスト
- Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - A New Adaptive Gradient Method with Gradient Decomposition [3.04585143845864]
我々は、勾配降下(SGD)とその加速スキーム(SGDM)に比較して、低次化を一般化するDecGDと呼ばれる新しい適応法を提案する。
本手法は,Adam方式の2乗勾配に代えて,電流損失に基づくベクトルに応じて学習率を適応的に調整する。
我々は、DECGDがSGDMよりも優れた一般化性能を示し、Adam-type法のような高速収束を示すことを示す。
論文 参考訳(メタデータ) (2021-07-18T06:37:28Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。