論文の概要: AdamL: A fast adaptive gradient method incorporating loss function
- arxiv url: http://arxiv.org/abs/2312.15295v1
- Date: Sat, 23 Dec 2023 16:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:35:46.807789
- Title: AdamL: A fast adaptive gradient method incorporating loss function
- Title(参考訳): AdamL:損失関数を組み込んだ高速適応勾配法
- Authors: Lu Xia and Stefano Massei
- Abstract要約: 本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
- 参考スコア(独自算出の注目度): 1.6025685183216696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive first-order optimizers are fundamental tools in deep learning,
although they may suffer from poor generalization due to the nonuniform
gradient scaling. In this work, we propose AdamL, a novel variant of the Adam
optimizer, that takes into account the loss function information to attain
better generalization results. We provide sufficient conditions that together
with the Polyak-Lojasiewicz inequality, ensure the linear convergence of AdamL.
As a byproduct of our analysis, we prove similar convergence properties for the
EAdam, and AdaBelief optimizers. Experimental results on benchmark functions
show that AdamL typically achieves either the fastest convergence or the lowest
objective function values when compared to Adam, EAdam, and AdaBelief. These
superior performances are confirmed when considering deep learning tasks such
as training convolutional neural networks, training generative adversarial
networks using vanilla convolutional neural networks, and long short-term
memory networks. Finally, in the case of vanilla convolutional neural networks,
AdamL stands out from the other Adam's variants and does not require the manual
adjustment of the learning rate during the later stage of the training.
- Abstract(参考訳): adaptive first-order optimizerはディープラーニングの基本的なツールだが、不均一な勾配スケーリングのために一般化が不十分な場合がある。
本研究では,Adam最適化の新たな変種であるAdamLを提案する。
我々は、Polyak-Lojasiewiczの不等式とともに、AdamL の線型収束を保証する十分な条件を提供する。
解析の副産物として、EAdamとAdaBeliefオプティマイザに類似した収束特性を証明した。
ベンチマーク関数の実験結果から、Adam, EAdam, AdaBeliefと比較すると、AdamLは最も早く収束するか、最も低い目的関数値を得る。
これらの優れた性能は、畳み込みニューラルネットワークのトレーニング、バニラ畳み込みニューラルネットワークを用いた生成逆ネットワークのトレーニング、長期短期記憶ネットワークなどのディープラーニングタスクを考慮すると確認される。
最後に、バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
関連論文リスト
- AdamZ: An Enhanced Optimisation Method for Neural Network Training [1.54994260281059]
AdamZは、オーバーシューティングと停滞に対処するメカニズムを組み込むことで、学習率を動的に調整する。
損失関数の最小化に一貫して優れており、精度が重要なアプリケーションに特に有利である。
論文 参考訳(メタデータ) (2024-11-22T23:33:41Z) - Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning [2.695991050833627]
本稿では,ディープラーニングのためのCG-like-Adamという新しい最適化アルゴリズムを提案する。
具体的には、ジェネリック・アダムの第1次と第2次モーメント推定の両方を共役次数様に置き換える。
CIFAR10/100データセットに基づく提案アルゴリズムの優位性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-04-02T07:57:17Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Lipschitzness Effect of a Loss Function on Generalization Performance of
Deep Neural Networks Trained by Adam and AdamW Optimizers [0.0]
我々は、損失関数のリプシッツ定数が、AdamやAdamWによって得られた出力モデルの一般化誤差を減少させる重要な要因であることを理論的に証明する。
実験により,リプシッツ定数と最大値が低い損失関数は,アダムやアダム・Wによって訓練されたモデルの一般化を改善することが示された。
論文 参考訳(メタデータ) (2023-03-29T05:33:53Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。