論文の概要: PolarAdamW: Disentangling Spectral Control and Schur Gauge-Equivariance in Matrix Optimisation
- arxiv url: http://arxiv.org/abs/2605.07067v1
- Date: Fri, 08 May 2026 00:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.696199
- Title: PolarAdamW: Disentangling Spectral Control and Schur Gauge-Equivariance in Matrix Optimisation
- Title(参考訳): PolarAdamW: 行列最適化におけるスペクトル制御とシュールゲージ等価性
- Authors: Haozhou Zhang,
- Abstract要約: PolarAdamWは、ムオンの極性スペクトル-ノルム制御を保存するが、ゲージ-等分散を破る制御ハイブリッドである。
DeiT-TinyはImageNet-1kの4つの独立した100クラスのサブセットをスクラッチからトレーニングした。
多重性基底自由度が非自明なSO(3)-同変3D点雲回帰では、Muonは監査された全容量でPolarAdamWより優れる。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Muon's matrix-level update couples two distinct effects: spectral control via a polar map, and equivariance under orthogonal changes of multiplicity-space basis (Schur gauge-equivariance). We separate them with PolarAdamW, a controlled hybrid that preserves Muon's polar spectral-norm control but breaks the gauge-equivariance, since AdamW's coordinatewise preconditioner is basis-dependent. Algorithmically, PolarAdamW applies Muon's Newton-Schulz polar map to AdamW's preconditioned direction rather than to raw momentum, at per-iteration wall-time comparable to Muon. We prove that Muon's polar step is Schur gauge-equivariant on multiplicity matrices while AdamW's coordinatewise step is not. On DeiT-Tiny trained from scratch on four independently sampled 100-class subsets of ImageNet-1k, where multiplicity-basis freedom is trivial, PolarAdamW outperforms Muon by +1.93 pp in test accuracy on average and AdamW by +9.5 pp; under the 300-epoch DeiT-style recipe, it remains ahead of Muon by +1.37 pp and AdamW by +5.80 pp on average. On SO(3)-equivariant 3D point-cloud regression, where multiplicity-basis freedom is non-trivial, the ordering reverses: Muon outperforms PolarAdamW at every audited capacity, and the gap widens with capacity. Both matrix-polar optimisers continue to outperform AdamW. This double dissociation separates spectral control from Schur gauge-equivariance: the first composes well with AdamW preconditioning on standard transformers, while the second becomes consequential when multiplicity-basis freedom is structurally non-trivial.
- Abstract(参考訳): ミューオンの行列レベルの更新は、極写像によるスペクトル制御と、多重度空間基底の直交的変化(シュールゲージ等分散)の下での同値性という2つの異なる効果を兼ね備えている。
我々はこれらを、ムオンの極性スペクトル-ノルム制御を保った制御ハイブリッドであるPolarAdamWと区別するが、AdamWの座標的前提条件は基底に依存しているため、ゲージ-等分散を破る。
アルゴリズム上、PolarAdamWはミューオンのニュートン・シュルツ極写像を原運動量ではなくアダムWのプレコンディショニングされた方向に適用する。
我々は、ムオンの極ステップが乗法行列上のシュルゲージ同変であることを証明するが、アダムWの座標的なステップはそうではない。
DeiT-Tinyは、ImageNet-1kの4つの独立した100クラスのサブセットをスクラッチからトレーニングし、乗算ベイズの自由は自明であり、PolarAdamWは平均で+1.93pp、AdamWは+9.5pp、300エポックなDeiTスタイルのレシピでは平均で+1.37pp、AdamWは+5.80ppである。
多重度基底自由度が非自明なSO(3)-同変3D点雲回帰では、順序が逆転する: Muon は監査された全てのキャパシティにおいて PolarAdamW を上回り、ギャップはキャパシティで拡大する。
どちらの行列偏光子もAdamWを上回り続けている。
この二重解離はスペクトル制御をシュルゲージ等分散から分離し、第1は標準変圧器のAdamWプレコンディショニングとうまく構成し、第2は多重度基底自由度が構造的に非自明であるときに連続となる。
関連論文リスト
- Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [262.0414794728708]
ネモトロン3スーパーの事前学習、後学習、量子化について述べる。
Nemotron 3 Superは1200億(アクティブ120億)のパラメータハイブリッドMamba-Attention Mixture-of-Expertsモデルである。
論文 参考訳(メタデータ) (2026-04-14T07:02:32Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training [0.0]
MUD(MomentUm Decorrelation)は,Muonの極点更新を三角形(Cholesky様)の白化代理に置き換える補完的な白化手法である。
MUDは、調整されたAdamWとMuonよりも、10-50%のウォールクロック改善を実現している。
また,EMM-2 150Mタンパク質言語モデルのトレーニングを行った。
論文 参考訳(メタデータ) (2026-03-18T17:37:31Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair [0.0]
トランスフォーマーニューラルネットワークは、物理学に基づく問題にますます利用されている。
データ駆動型PDEサロゲートでは、異なる境界と初期条件からのトレーニングサンプルが不規則な損失とスパイク勾配を引き起こす可能性がある。
固定された第2モーメントベータ2がレイヤワイドな値に置き換えられるAdamスタイルの割引であるKourkoutas-Betaを紹介します。
論文 参考訳(メタデータ) (2025-08-18T15:16:54Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。