論文の概要: MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration
- arxiv url: http://arxiv.org/abs/2603.28254v1
- Date: Mon, 30 Mar 2026 10:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.338338
- Title: MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration
- Title(参考訳): MuonEq: ライトウェイト均衡による直交化前のバランス
- Authors: Da Chang, Qiankun Shi, Lvgang Zhang, Yu Li, Ruijie Zhang, Yao Lu, Yongxiang Liu, Ganzhao Yuan,
- Abstract要約: ムオンの直交化前平衡スキームの軽量なファミリーであるメソッドを導入する。
LLaMA2 の C4 での事前訓練では、デフォルトの R 版は130M と350M のモデルで Muon を一貫して上回っている。
- 参考スコア(独自算出の注目度): 31.160844121725123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orthogonalized-update optimizers such as Muon improve training of matrix-valued parameters, but existing extensions mostly act either after orthogonalization by rescaling updates or before it with heavier whitening-based preconditioners. We introduce {\method}, a lightweight family of pre-orthogonalization equilibration schemes for Muon in three forms: two-sided row/column normalization (RC), row normalization (R), and column normalization (C). These variants rebalance the momentum matrix before finite-step Newton--Schulz using row/column squared-norm statistics and only $\mathcal{O}(m+n)$ auxiliary state. We show that finite-step orthogonalization is governed by input spectral properties, especially stable rank and condition number, and that row/column normalization is a zeroth-order whitening surrogate that removes marginal scale mismatch. For the hidden matrix weights targeted by {\method}, the row-normalized variant R is the natural default and preserves the $\widetilde{\mathcal{O}}(T^{-1/4})$ stationarity guarantee of Muon-type methods. In LLaMA2 pretraining on C4, the default R variant consistently outperforms Muon on 130M and 350M models, yielding faster convergence and lower validation perplexity.
- Abstract(参考訳): Muon のような直交化された更新オプティマイザは行列値パラメータのトレーニングを改善するが、既存の拡張は更新を再スケールするか、より重いホワイトニングベースのプレコンディショナーで前向きに動作する。
両面の行/カラム正規化(RC)、行正規化(R)、列正規化(C)の3つの形式で、ムーンの直交前調整スキームの軽量なファミリーである {\method} を紹介する。
これらの変種は有限ステップニュートン-シュルツの前の運動量行列を行/カラム二乗ノルム統計と$\mathcal{O}(m+n)$補助状態を用いて再均衡させる。
有限ステップの直交化は入力スペクトル特性、特に安定な階数と条件数によって制御され、行/カラム正規化は境界スケールミスマッチを除去するゼロ階のホワイトニングサロゲートであることを示す。
{\method} が対象とする隠れ行列重みについて、行正規化された不変量 R は自然デフォルトであり、ミューオン型のメソッドの固定性を保証する$\widetilde{\mathcal{O}}(T^{-1/4})$を保っている。
C4 上の LLaMA2 プリトレーニングでは、デフォルトの R 変種は130M と 350M のモデルで Muon を一貫して上回り、より高速な収束と検証の難しさをもたらす。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases [29.60546958677364]
nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
論文 参考訳(メタデータ) (2026-02-01T08:59:45Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Conditional Matrix Flows for Gaussian Graphical Models [1.6435014180036467]
本稿では,頻繁な鍵化とベイズ推論の利点を考察した変分推論行列GG-Flowの一般フレームワークを提案する。
a train of the sparse for any $lambda$ and any $l_q$ (pse-) and for any $l_q$ (pse-) we have train the limit for any $lambda$ and any $l_q$ (pse-) and (like for the selection) the often solution。
論文 参考訳(メタデータ) (2023-06-12T17:25:12Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。