論文の概要: Adam with model exponential moving average is effective for nonconvex optimization
- arxiv url: http://arxiv.org/abs/2405.18199v2
- Date: Wed, 30 Oct 2024 17:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 13:57:15.261401
- Title: Adam with model exponential moving average is effective for nonconvex optimization
- Title(参考訳): モデル指数移動平均を持つアダムは非凸最適化に有効である
- Authors: Kwangjun Ahn, Ashok Cutkosky,
- Abstract要約: 本稿では,Adamのような適応最適化アルゴリズムと(II)指数移動平均(EMA)モデルという,大規模かつ複雑なモデルのトレーニングのための2つの現代的な最適化手法に関する理論的解析を行う。
- 参考スコア(独自算出の注目度): 45.242009309234305
- License:
- Abstract: In this work, we offer a theoretical analysis of two modern optimization techniques for training large and complex models: (i) adaptive optimization algorithms, such as Adam, and (ii) the model exponential moving average (EMA). Specifically, we demonstrate that a clipped version of Adam with model EMA achieves the optimal convergence rates in various nonconvex optimization settings, both smooth and nonsmooth. Moreover, when the scale varies significantly across different coordinates, we demonstrate that the coordinate-wise adaptivity of Adam is provably advantageous. Notably, unlike previous analyses of Adam, our analysis crucially relies on its core elements -- momentum and discounting factors -- as well as model EMA, motivating their wide applications in practice.
- Abstract(参考訳): 本研究では,大規模・複雑モデルの学習のための2つの現代的な最適化手法に関する理論的解析を行う。
(i)Adamなどの適応最適化アルゴリズム
(II)指数移動平均モデル(EMA)
具体的には、モデルEMAを用いたAdamのクリップバージョンが、滑らかかつ非滑らかな様々な非凸最適化設定における最適収束率を達成することを実証する。
さらに、スケールが異なる座標間で大きく異なる場合、Adamの座標ワイド適応性は確実に有利であることを示す。
特に、Adamの以前の分析とは異なり、我々の分析はコア要素である運動量と割引係数、およびモデルEMAに大きく依存しており、実際は幅広い応用を動機付けている。
関連論文リスト
- Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks [4.309676284145538]
SGDと適応性はより広い推論の下で統一可能であることを示唆する。
いくつかの古典的データセットやネットワーク上で,バランス係数の違いがトレーニングプロセス全体に与える影響を確認する試験を行った。
論文 参考訳(メタデータ) (2024-05-28T18:09:22Z) - Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Delegating Data Collection in Decentralized Machine Learning [67.0537668772372]
分散機械学習(ML)エコシステムの出現に動機付けられ,データ収集のデリゲートについて検討する。
我々は、2つの基本的な情報非対称性を扱う最適でほぼ最適な契約を設計する。
最適効用の1-1/e分を達成できるような単純な線形契約により、主成分がそのような非対称性に対処できることが示される。
論文 参考訳(メタデータ) (2023-09-04T22:16:35Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - On the Trend-corrected Variant of Adaptive Stochastic Optimization
Methods [30.084554989542475]
本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。
我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。
論文 参考訳(メタデータ) (2020-01-17T01:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。