論文の概要: An Exploration of Non-Euclidean Gradient Descent: Muon and its Many Variants
- arxiv url: http://arxiv.org/abs/2510.09827v1
- Date: Fri, 10 Oct 2025 19:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.64077
- Title: An Exploration of Non-Euclidean Gradient Descent: Muon and its Many Variants
- Title(参考訳): 非ユークリッドグラディエント蛍光の探索:ミューオンとその多変量
- Authors: Michael Crawshaw, Chirag Modi, Mingrui Liu, Robert M. Gower,
- Abstract要約: MuonMax は学習速度の選択に敏感であるのに対して,私たちが MuonMax と呼ぶ新しい変種は,はるかに堅牢である。
我々は、勾配非ユークリッド法とモデルベース運動量(モモとして知られる)を組み合わせる方法を示す。
- 参考スコア(独自算出の注目度): 38.56190531594778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To define a steepest descent method over a neural network, we need to choose a norm for each layer, a way to aggregate these norms across layers, and whether to use normalization. We systematically explore different alternatives for aggregating norms across layers, both formalizing existing combinations of Adam and the recently proposed Muon as a type of non-Euclidean gradient descent, and deriving new variants of the Muon optimizer. Through a comprehensive experimental evaluation of the optimizers within our framework, we find that Muon is sensitive to the choice of learning rate, whereas a new variant we call MuonMax is significantly more robust. We then show how to combine any non-Euclidean gradient method with model based momentum (known as Momo). The new Momo variants of Muon are significantly more robust to hyperparameter tuning, and often achieve a better validation score. Thus for new tasks, where the optimal hyperparameters are not known, we advocate for using Momo in combination with MuonMax to save on costly hyperparameter tuning.
- Abstract(参考訳): ニューラルネットワーク上で最も急降下法を定義するには、各レイヤのノルム、層間でこれらのノルムを集約する方法、正規化を使用するかどうかを選択する必要がある。
我々は、Adam と最近提案された Muon の既存の組み合わせを非ユークリッド勾配勾配の型として定式化し、新しい Muon 最適化器の変種を導出するなど、層間のノルムを集約するための異なる選択肢を体系的に検討する。
フレームワーク内のオプティマイザを包括的に実験的に評価した結果,Muonは学習速度の選択に敏感であることがわかった。
次に、任意の非ユークリッド勾配法とモデルベース運動量(モモとして知られる)を組み合わせる方法を示す。
Muon の新しい Momo 変種はハイパーパラメータチューニングに対してはるかに堅牢であり、しばしばより良い検証スコアを得る。
したがって、最適なハイパーパラメータが不明な新しいタスクに対しては、コストのかかるハイパーパラメータチューニングを省くために、MomoとMuonMaxを組み合わせることを推奨する。
関連論文リスト
- Preconditioned Norms: A Unified Framework for Steepest Descent, Quasi-Newton and Adaptive Methods [50.070182958880146]
本稿では,事前条件付き行列ノルムの新たな概念を通じて,降下法,準ニュートン法,適応法を一般化する統一的枠組みを提案する。
この枠組みでは、行列パラメータ化設定におけるアフィンとスケール不変性の最初の体系的処理を提供する。
我々は、Muonのスペクトル幾何学とAdamスタイルのプレコンディショニングを組み合わせた、$ttMuAdam$と$texttMuAdam-SANIA$という2つの新しい方法を紹介した。
論文 参考訳(メタデータ) (2025-10-12T19:39:41Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。