論文の概要: MuonBP: Faster Muon via Block-Periodic Orthogonalization
- arxiv url: http://arxiv.org/abs/2510.16981v1
- Date: Sun, 19 Oct 2025 19:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.232281
- Title: MuonBP: Faster Muon via Block-Periodic Orthogonalization
- Title(参考訳): MuonBP:Block-Periodic Orthogonalizationによるより高速なMuon
- Authors: Ahmed Khaled, Kaan Ozkara, Tao Yu, Mingyi Hong, Youngsuk Park,
- Abstract要約: ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
- 参考スコア(独自算出の注目度): 24.232069944820513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient orthogonalization is a simple strategy that shows great utility in speeding up gradient descent. The Muon optimizer (Jordan, Jin, et al., 2024) combines gradient orthogonalization with first-order momentum and achieves significant improvement in data efficiency over Adam/AdamW (Loshchilov and Hutter, 2019) for language model training. However, when using model parallelism, gradient orthogonalization introduces additional overhead compared to coordinate-wise optimizers (such as AdamW) due to additional gather and scatter operations on gradient matrix shards from different devices. This additional communication can amount to a throughput hit of 5%-10% compared to Adam/AdamW. To remedy this, we propose Muon with Block-Periodic Orthogonalization (MuonBP), which applies orthogonalization independently to matrix shards on each device and periodically performs full orthogonalization to maintain training stability at scale. We show how to adjust the learning rate from the baseline to MuonBP and give convergence guarantees for this algorithm. Crucially, our theory dictates that we use two stepsizes: one for the blockwise orthogonalization steps, and one for the full orthogonalization steps. Our method is simple, requires minimal hyperparameter adjustments, and achieves competitive iteration complexity compared with baseline Muon while providing per-iteration throughput comparable to coordinate-wise methods such as AdamW. When training an 8B model with eight-way tensor parallelism and ZeRO optimizer state sharding, MuonBP achieves 8% throughput increase compared to Muon with no degradation in performance.
- Abstract(参考訳): 勾配直交化(Gradient orthogonalization)は、勾配降下の高速化に優れた有用性を示す単純な戦略である。
Muonオプティマイザ(Jordan, Jin, et al , 2024)は、勾配直交化と一階運動量を組み合わせて、Adam/AdamW(Loshchilov and Hutter, 2019)による言語モデルのトレーニングにおいて、データ効率を大幅に向上させる。
しかし、モデル並列性を使用する場合、勾配直交化は、異なるデバイスからの勾配行列シャードに対する追加の集合および散乱操作のために座標最適化器(AdamWなど)と比較して、追加のオーバーヘッドをもたらす。
この追加の通信はAdam/AdamWに比べて5%-10%のスループットを達成できる。
そこで我々は, 各デバイス上の行列シャードに独立して直交化を適用し, 大規模なトレーニング安定性を維持するために, 完全直交化を定期的に実施するMuon with Block-Periodic Orthogonalization (MuonBP)を提案する。
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムに対して収束保証を与える。
重要なことに、我々の理論は2つの段階を、ブロック方向の直交ステップに1つ、完全な直交ステップに1つ使うと定めている。
提案手法は単純で,最小限のハイパーパラメータ調整が必要であり,AdamW などの座標ワイド手法に匹敵するスループットを提供しながら,ベースラインの Muon と競合するイテレーションの複雑性を実現する。
8方向テンソル並列性とZeROオプティマイザ状態シャーディングによる8Bモデルのトレーニングでは,MuonBPは性能劣化のないMuonに比べて8%のスループット向上を実現している。
関連論文リスト
- NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - AuON: A Linear-time Alternative to Semi-Orthogonal Momentum Updates [0.0]
運動量に基づく更新の半直交特性について検討し、スペクトルノルム信頼領域下での運動量更新を束縛する方法を開発した。
半直交行列を構成することなく強い性能を達成する線形時間であるAuON(正規化非線形スケーリングによる代替単位ノルム運動量更新)を提案する。
提案手法は, 双極子-コサインRMSスケーリング変換と正規化を組み合わせることで, ニュートン-シュルツ法と比較して, 有効性と計算効率の両立を実証する。
論文 参考訳(メタデータ) (2025-09-29T06:03:53Z) - Effective Quantization of Muon Optimizer States [6.256712531304834]
ブロックワイド量子化を用いた8ビットミューオンを導入し,線形スキームと動的スキームの両方をサポートする。
8ビットのMuonは、両方の安定性を維持しつつ、フル精度のMuonに比べてメモリフットプリントが74%削減されていることを実証した。
大規模な実験では、8ビットのMuonがMuonのパフォーマンスと密に一致し、AdamWと8ビットのAdamWが4B FineWebトークン上で1.6Bモデルの事前トレーニングを行う。
論文 参考訳(メタデータ) (2025-09-27T04:31:11Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。