論文の概要: On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer
- arxiv url: http://arxiv.org/abs/2603.09952v1
- Date: Tue, 10 Mar 2026 17:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.514433
- Title: On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer
- Title(参考訳): 行列演算子ノルム下でのニューラルオプティマイザの幅スケーリングについて I:ロー/カラム正規化とハイパーパラメータ転送
- Authors: Ruihan Xu, Jiajin Li, Yiping Lu,
- Abstract要約: 平均正規化作用素ノルムの族は、層ワイズ可能性を認め、幅非依存な滑らかさ境界を得る。
また、textrmMuonは、スムーズネス定数が$mathcalO(qrtw)最悪のケース成長に悩まされるのに対し、qmean$に正規化された新しい行の族は、幅に依存しない境界を達成できることを示す。
- 参考スコア(独自算出の注目度): 10.976013033990448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central question in modern deep learning is how to design optimizers whose behavior remains stable as the network width $w$ increases. We address this question by interpreting several widely used neural-network optimizers, including \textrm{AdamW} and \textrm{Muon}, as instances of steepest descent under matrix operator norms. This perspective links optimizer geometry with the Lipschitz structure of the network forward map, and enables width-independent control of both Lipschitz and smoothness constants. However, steepest-descent rules induced by standard $p \to q$ operator norms lack layerwise composability and therefore cannot provide width-independent bounds in deep architectures. We overcome this limitation by introducing a family of mean-normalized operator norms, denoted $\pmean \to \qmean$, that admit layerwise composability, yield width-independent smoothness bounds, and give rise to practical optimizers such as \emph{rescaled} \textrm{AdamW}, row normalization, and column normalization. The resulting learning rate width-aware scaling rules recover $μ$P scaling~\cite{yang2021tensor} as a special case and provide a principled mechanism for cross-width learning-rate transfer across a broad class of optimizers. We further show that \textrm{Muon} can suffer an $\mathcal{O}(\sqrt{w})$ worst-case growth in the smoothness constant, whereas a new family of row-normalized optimizers we propose achieves width-independent smoothness guarantees. Based on the observations, we propose MOGA (Matrix Operator Geometry Aware), a width-aware optimizer based only on row/column-wise normalization that enables stable learning-rate transfer across model widths. Large-scale pre-training on GPT-2 and LLaMA shows that MOGA, especially with row normalization, is competitive with Muon while being notably faster in large-token and low-loss regimes.
- Abstract(参考訳): 現代のディープラーニングにおける中心的な問題は、ネットワーク幅が$w$増加するにつれて、動作が安定しているオプティマイザを設計する方法である。
この問題は,行列作用素ノルムの下で最も急降下する例として, <textrm{AdamW} や \textrm{Muon} など,広く使用されているニューラルネットワークオプティマイザを解釈することによって解決される。
この観点は、オプティマイザ幾何とネットワークフォワードマップのリプシッツ構造を結びつけ、リプシッツと滑らか性定数の幅非依存的な制御を可能にする。
しかし、標準の$p \to q$演算ノルムによって引き起こされる最も急勾配規則は階層的な構成性に欠けており、したがって深層アーキテクチャにおいて幅に依存しない境界を与えることはできない。
平均正規化作用素ノルムの族を$\pmean \to \qmean$と書くことでこの制限を克服し、層状構成性を認め、幅に依存しない滑らか性境界を生じさせ、例えば \emph{rescaled} \textrm{AdamW}, row normalization, column normalization のような実用的な最適化子を生み出す。
得られた学習速度幅対応スケーリングルールは、特別なケースとして$μ$Pスケーリング~\cite{yang2021tensor}を回復し、幅広いオプティマイザのクラスにまたがるクロス幅学習レート転送の原則的メカニズムを提供する。
さらに, 行正規化オプティマイザの新たなファミリは, 幅非依存のスムーズネス保証を実現する一方で, $\mathcal{O}(\sqrt{w})$ 最悪のスムーズネス定数の増大を被ることを示す。
そこで本研究では,行/列単位の正規化のみをベースとして,モデル幅間の学習速度を安定的に伝達可能な幅対応最適化器MOGAを提案する。
GPT-2とLLaMAの大規模プレトレーニングでは、MOGA、特に行正規化では、Muonと競合する一方で、大規模で低損失なシステムでは特に高速であることが示されている。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文 参考訳(メタデータ) (2026-01-30T23:06:34Z) - Manifold constrained steepest descent [0.0]
多様体上の最適化のための単一ループフレームワークであるemphManifold Constrained Steepest Descent (MCSD)を提案する。
また、Stiefel多様体上のMCSDのスペクトル特殊化であるemphSPELを導入する。
論文 参考訳(メタデータ) (2026-01-29T10:08:37Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Minimax Adaptive Online Nonparametric Regression over Besov Spaces [8.691764858459623]
我々は,連続的かつ極めて不規則な予測規則の豊富なクラスに対して,凸損失を伴うオンライン逆回帰について検討した。
本稿では,$(s,p,q)$の事前知識を必要とせずに逐次予測を行う適応ウェーブレットベースのアルゴリズムを提案する。
また、空間的不均一な滑らかさを動的に追跡できる局所適応拡張を設計する。
論文 参考訳(メタデータ) (2025-05-26T09:23:11Z) - Position: Curvature Matrices Should Be Democratized via Linear Operators [6.946287154076936]
線形演算子は、曲率行列を扱う汎用的でスケーラブルでユーザフレンドリな抽象化を提供する。
$textitcurvlinops$は、統一された線形演算子インターフェイスを通じて曲率行列を提供するライブラリである。
私たちは$textitcurvlinops$で、このインターフェースがいかに複雑さを隠蔽し、アプリケーションを単純化し、他のライブラリと相互運用可能で、大規模なNNにスケールするかを示します。
論文 参考訳(メタデータ) (2025-01-31T14:46:30Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。