論文の概要: Muon Optimizer Accelerates Grokking
- arxiv url: http://arxiv.org/abs/2504.16041v1
- Date: Tue, 22 Apr 2025 17:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:15:46.857018
- Title: Muon Optimizer Accelerates Grokking
- Title(参考訳): MuonOptimizerはグローキングを加速する
- Authors: Amund Tveit, Bjørn Remseth, Arve Skogvold,
- Abstract要約: Muonは広く使われているAdamWに比べて、グルーキングの開始を促進する。
Muon はすべての構成で平均グルーキングエポックを 153.09 から 102.89 に減らした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the impact of different optimizers on the grokking phenomenon, where models exhibit delayed generalization. We conducted experiments across seven numerical tasks (primarily modular arithmetic) using a modern Transformer architecture. The experimental configuration systematically varied the optimizer (Muon vs. AdamW) and the softmax activation function (standard softmax, stablemax, and sparsemax) to assess their combined effect on learning dynamics. Our empirical evaluation reveals that the Muon optimizer, characterized by its use of spectral norm constraints and second-order information, significantly accelerates the onset of grokking compared to the widely used AdamW optimizer. Specifically, Muon reduced the mean grokking epoch from 153.09 to 102.89 across all configurations, a statistically significant difference (t = 5.0175, p = 6.33e-08). This suggests that the optimizer choice plays a crucial role in facilitating the transition from memorization to generalization.
- Abstract(参考訳): 本稿では,モデルが遅延一般化を示すグルーキング現象に対して,異なる最適化器が与える影響について検討する。
現代のTransformerアーキテクチャを用いて、7つの数値タスク(主にモジュラー演算)に対して実験を行った。
実験では,オプティマイザ (Muon vs. AdamW) とソフトマックスアクティベーション関数 (標準ソフトマックス, 安定マックス, スパースマックス) を系統的に変化させ,それらの組み合わせが学習力学に与える影響を評価した。
実験により,スペクトルノルム制約と2次情報を用いたMuonオプティマイザは,広く使用されているAdamWオプティマイザと比較してグルーキングの開始を著しく加速することがわかった。
具体的には、ムオンは平均グルーキングエポックを全構成で153.09から102.89に減らし、統計的に有意な差(t = 5.0175, p = 6.33e-08)を示した。
このことは、最適化の選択が記憶から一般化への移行を促進する上で重要な役割を担っていることを示唆している。
関連論文リスト
- Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - SMMF: Square-Matricized Momentum Factorization for Memory-Efficient Optimization [0.5755004576310332]
SMMFはAdamのような広く使われている適応学習率Matrixのメモリ要求を最大96%削減するメモリ効率である。
本研究では,SMMF の残差解析を行い,AdamNC などの非メモリ効率適応学習率 Matrix と同様に収束することを示す。
我々の実験では、SMMFは、Adafactor、CAME、SM3といった最先端のメモリ効率と比較して最大96%のメモリを消費し、同等のモデル性能を実現している。
論文 参考訳(メタデータ) (2024-12-12T03:14:50Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z) - Learning to Optimize with Dynamic Mode Decomposition [0.0]
本稿では,動的モード分解法を用いて最適化力学に関する情報的特徴を抽出する方法を示す。
学習結果から,最適化問題を簡潔に解き明かすことにより,より一般化できることが示される。
論文 参考訳(メタデータ) (2022-11-29T14:55:59Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。