論文の概要: Optimistic Dual Averaging Unifies Modern Optimizers
- arxiv url: http://arxiv.org/abs/2605.11172v1
- Date: Mon, 11 May 2026 19:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.388027
- Title: Optimistic Dual Averaging Unifies Modern Optimizers
- Title(参考訳): Optimistic Dual Averagingがモダンな最適化ツールを統合
- Authors: Thomas Pethick, Wanyun Xie, Roman Machacek, Volkan Cevher,
- Abstract要約: 我々は,Muon, Lion, AdEMAMix, NAdamといった最先端の一般化に関する共通の視点を提供するSODAを紹介する。
理論上は1/k$の減衰スケジュールを通した重量減衰チューニングを不要とする,任意のベースに対する実用的なSODAラッパーを提案する。
- 参考スコア(独自算出の注目度): 51.239769164958695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SODA, a generalization of Optimistic Dual Averaging, which provides a common perspective on state-of-the-art optimizers like Muon, Lion, AdEMAMix and NAdam, showing that they can all be viewed as optimistic instances of this framework. Based on this framing, we propose a practical SODA wrapper for any base optimizer that eliminates weight decay tuning through a theoretically-grounded $1/k$ decay schedule. Empirical results across various scales and training horizons show that SODA consistently improves performance without any additional hyperparameter tuning.
- Abstract(参考訳): 我々は,Optimistic Dual Averagingの一般化であるSODAを紹介した。これは,Muon, Lion, AdEMAMix, NAdamといった最先端のオプティマイザに対する共通の視点を提供するもので,いずれもこのフレームワークの楽観的なインスタンスとみなせることを示す。
このフレーミングに基づいて、理論上は1/k$の減衰スケジュールを通した重量減衰チューニングを排除し、任意のベースオプティマイザに対する実用的なSODAラッパーを提案する。
様々なスケールにわたる実証的な結果とトレーニングの地平線は、SODAが追加のハイパーパラメータチューニングを伴わずに一貫してパフォーマンスを改善することを示している。
関連論文リスト
- Anon: Extrapolating Adaptivity Beyond SGD and Adam [25.876261427108673]
Anonは、古典と近代のギャップを埋めることのできる、最初の統一的で信頼性の高いフレームワークを提供する。
Anonはハードトラックよりも柔軟で、ノイズに対する勾配の堅牢性を高める。
論文 参考訳(メタデータ) (2026-05-04T08:14:51Z) - HVAdam: A Full-Dimension Adaptive Optimizer [18.315990067259253]
Anonは、古典と近代のギャップを埋めることのできる、最初の統一的で信頼性の高いフレームワークを提供する。
アニオンはSGDライクな行動とアダムライクな行動の両方を補間する。
論文 参考訳(メタデータ) (2025-11-25T13:05:40Z) - The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks [4.309676284145538]
SGDと適応性はより広い推論の下で統一可能であることを示唆する。
いくつかの古典的データセットやネットワーク上で,バランス係数の違いがトレーニングプロセス全体に与える影響を確認する試験を行った。
論文 参考訳(メタデータ) (2024-05-28T18:09:22Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。