論文の概要: Understanding Dynamics of Adam in Zero-Sum Games: An ODE Approach
- arxiv url: http://arxiv.org/abs/2605.19392v1
- Date: Tue, 19 May 2026 05:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.145045
- Title: Understanding Dynamics of Adam in Zero-Sum Games: An ODE Approach
- Title(参考訳): ゼロサムゲームにおけるアダムのダイナミクスの理解:ODEアプローチ
- Authors: Yi Feng, Weiming Ou, Xiao Wang,
- Abstract要約: 我々は、Adam-DAの連続時間極限として機能する常微分方程式を導出する。
解析の結果,ゼロサムゲームにおける一階運動量パラメータと二階運動量パラメータの役割は,最小化問題の文書化効果とは正反対であることがわかった。
- 参考スコア(独自算出の注目度): 14.605735105736864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable success of the Adam in training neural networks has naturally led to the widespread use of its descent-ascent counterpart, Adam-DA, for solving zero-sum games. Despite its popularity in practice, a rigorous theoretical understanding of Adam-DA still lags behind. In this paper, we derive ordinary differential equations (ODEs) that serve as continuous-time limits of the Adam-DA. These ODEs closely approximate the discrete-time dynamics of Adam-DA, providing a tractable analytical framework for understanding its behavior in zero-sum games. Using this ODE approach, we investigate two fundamental aspects of Adam-DA: local convergence and implicit gradient regularization. Our analysis reveals that the roles of the first- and second-order momentum parameters in zero-sum games are exactly the opposite of their well-documented effects in minimization problems. We validate these predictions through GAN experiments across multiple architectures and datasets, demonstrating the practical implications of this reversed momentum effect.
- Abstract(参考訳): ニューラルネットワークのトレーニングにおけるAdamの顕著な成功は、ゼロサムゲームを解くために、その降下段階にあるAdam-DAを広く利用することにつながった。
実際に人気があるにもかかわらず、Adam-DAの厳密な理論的理解はいまだに遅れている。
本稿では、Adam-DAの連続時間極限として機能する常微分方程式(ODE)を導出する。
これらのODEはAdam-DAの離散時間力学を密接に近似し、ゼロサムゲームにおけるその振る舞いを理解するための抽出可能な解析的枠組みを提供する。
このODEアプローチを用いて、Adam-DAの局所収束と暗黙の勾配正規化の2つの基本的な側面について検討する。
解析の結果,ゼロサムゲームにおける一階運動量パラメータと二階運動量パラメータの役割は,最小化問題の文書化効果とは正反対であることがわかった。
これらの予測は、複数のアーキテクチャやデータセットにわたるGAN実験を通じて検証し、この逆運動量効果の実践的意味を実証する。
関連論文リスト
- Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers [57.049014152026864]
ニューラルネットワークのトレーニングでは、適応モーメント推定(Adam)は通常、高速に収束するが、最適以下の一般化性能を示す。
平らなミニマを見つける能力を高めるため、逆アダム(InvAdam)という新しい変種を提案する。
InvAdamは1階と2階のモーメントの要素ワイド乗算を計算し、Adamは2つのモーメントの要素ワイド除算を計算する。
論文 参考訳(メタデータ) (2026-03-07T09:15:30Z) - Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks [38.11287525994738]
アダムの一般化にどのように影響するかに関する最初の理論的特徴を示す。
以上の結果から,AdamとAdamWはともに適切な重みの減衰を伴って貧弱なテスト誤差解に収束するが,そのミニバッチ変種はほぼゼロのテスト誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-13T12:48:22Z) - The Rich and the Simple: On the Implicit Bias of Adam and SGD [26.722625797251553]
Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。
実際には、(確率的な)勾配降下(GD)で訓練されたニューラルネットワーク(NN)は、単純さのバイアスを示すことが知られている。
我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
論文 参考訳(メタデータ) (2025-05-29T21:46:12Z) - In Search of Adam's Secret Sauce [11.215133680044005]
さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。
符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。
この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
論文 参考訳(メタデータ) (2025-05-27T23:30:18Z) - Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。
我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。
次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文 参考訳(メタデータ) (2024-12-22T18:01:08Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。