論文の概要: Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers
- arxiv url: http://arxiv.org/abs/2603.07122v1
- Date: Sat, 07 Mar 2026 09:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.892034
- Title: Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers
- Title(参考訳): ディープラーニング最適化の一般化を促進するためのAdamと逆カウンタの組み合わせ
- Authors: Tao Shi, Liangming Chen, Long Jin, Mengchu Zhou,
- Abstract要約: ニューラルネットワークのトレーニングでは、適応モーメント推定(Adam)は通常、高速に収束するが、最適以下の一般化性能を示す。
平らなミニマを見つける能力を高めるため、逆アダム(InvAdam)という新しい変種を提案する。
InvAdamは1階と2階のモーメントの要素ワイド乗算を計算し、Adamは2つのモーメントの要素ワイド除算を計算する。
- 参考スコア(独自算出の注目度): 57.049014152026864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the training of neural networks, adaptive moment estimation (Adam) typically converges fast but exhibits suboptimal generalization performance. A widely accepted explanation for its defect in generalization is that it often tends to converge to sharp minima. To enhance its ability to find flat minima, we propose its new variant named inverse Adam (InvAdam). The key improvement of InvAdam lies in its parameter update mechanism, which is opposite to that of Adam. Specifically, it computes element-wise multiplication of the first-order and second-order moments, while Adam computes the element-wise division of these two moments. This modification aims to increase the step size of the parameter update when the elements in the second-order moments are large and vice versa, which helps the parameter escape sharp minima and stay at flat ones. However, InvAdam's update mechanism may face challenges in convergence. To address this challenge, we propose dual Adam (DualAdam), which integrates the update mechanisms of both Adam and InvAdam, ensuring convergence while enhancing generalization performance. Additionally, we introduce the diffusion theory to mathematically demonstrate InvAdam's ability to escape sharp minima. Extensive experiments are conducted on image classification tasks and large language model (LLM) fine-tuning. The results validate that DualAdam outperforms Adam and its state-of-the-art variants in terms of generalization performance. The code is publicly available at https://github.com/LongJin-lab/DualAdam.
- Abstract(参考訳): ニューラルネットワークのトレーニングでは、適応モーメント推定(Adam)は通常、高速に収束するが、最適以下の一般化性能を示す。
一般化の欠陥について広く受け入れられている説明は、しばしば鋭いミニマに収束する傾向があるということである。
平らなミニマを見つける能力を高めるため、逆アダム(InvAdam)と呼ばれる新しい変種を提案する。
InvAdamの主な改善点はパラメータ更新メカニズムにある。
具体的には、第1次モーメントと第2次モーメントの要素ワイド乗算を計算し、アダムはこの2つのモーメントの要素ワイド除算を計算する。
この修正は、第2次モーメントの要素が大きければ、パラメータ更新のステップサイズを増やすことを目的としており、その逆もまた、パラメータがシャープなミニマから逃れ、フラットなモーメントに留まるのに役立つ。
しかし、InvAdamの更新メカニズムは収束の課題に直面している可能性がある。
この課題に対処するため,Adam と InvAdam の両更新機構を統合し,一般化性能を高めつつ収束性を確保する2つのAdam (DualAdam) を提案する。
さらに,InvAdamの急激なミニマを逃れる能力を数学的に証明するために拡散理論を導入する。
画像分類タスクと大規模言語モデル(LLM)のファインチューニングについて大規模な実験を行った。
結果は、DualAdamがAdamとその最先端の変種を一般化性能で上回っていることを検証した。
コードはhttps://github.com/LongJin-lab/DualAdam.comで公開されている。
関連論文リスト
- Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks [38.11287525994738]
アダムの一般化にどのように影響するかに関する最初の理論的特徴を示す。
以上の結果から,AdamとAdamWはともに適切な重みの減衰を伴って貧弱なテスト誤差解に収束するが,そのミニバッチ変種はほぼゼロのテスト誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-13T12:48:22Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Maximizing Communication Efficiency for Large-scale Training via 0/1
Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。
我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文 参考訳(メタデータ) (2022-02-12T08:02:23Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。