論文の概要: Muon in Vision Transformers: Optimizer-Recipe Interactions and Gradient Spectra
- arxiv url: http://arxiv.org/abs/2605.24770v1
- Date: Sat, 23 May 2026 23:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.376818
- Title: Muon in Vision Transformers: Optimizer-Recipe Interactions and Gradient Spectra
- Title(参考訳): 視覚変換器におけるミューオン:最適化-レシピ相互作用と勾配スペクトル
- Authors: Ben S. Southworth, Shuai Jiang, Daniel McBride, Eric C. Cyr, Stephen Thomas,
- Abstract要約: 主に ImageNet-100 と Pl@ntNet-300K を用いた ViT トレーニングのための Muon について検討した。
我々は,MuonとAdamWの比較を行い,MuonとAdamWを比較した。
MuonはAdamWを一貫して上回り、特に長い尾を持つPl@ntNet macro top-1で大きな利益を得ている。
- 参考スコア(独自算出の注目度): 4.025699523115932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Muon is a recently developed matrix-aware optimizer that has shown strong results in transformer training, but its behavior in vision transformers (ViTs) is not yet well understood. We study Muon for ViT training, largely on ImageNet-100 and Pl@ntNet-300K, comparing against AdamW under standard vision recipes involving mixup, cutmix, smoothing, and random augmentation and erasing. Muon consistently outperforms AdamW, with especially large gains on long-tailed Pl@ntNet macro top-1. These gains are also recipe-dependent, where Muon benefits much more than AdamW from advanced and significant data augmentation techniques. To understand this interaction, we analyze the singular-value structure of matrix gradients throughout the ViT. Within Muon training runs, removing heavy data augmentation induces a late-training spectral concentration and mode collapse in gradient matrices, primarily in deep MLP-down blocks. Under a fixed "full" augmentation recipe, the clearest Muon-AdamW contrast appears instead in QKV gradients, where AdamW gradient energy remains concentrated in a much narrower basis while Muon spreads energy across substantially more singular modes. Muon in ViTs is therefore best understood as an optimizer-recipe interaction. Under a fixed recipe, Muon differs from AdamW most clearly in attention projections, where its gradients consist of a broader spectral basis. Within Muon, a full training recipe is important for preventing late spectral concentration and mode collapse in deep feedforward blocks. We further demonstrate efficacy in training ViTs on image segmentation and masked autoencoder models, where Muon outperforms AdamW in all settings considered.
- Abstract(参考訳): Muonは近年開発された行列対応オプティマイザであり、トランスフォーマートレーニングで強い成果を上げているが、視力変換器(ViT)の挙動はまだよく分かっていない。
我々は、主にImageNet-100とPl@ntNet-300Kに基づいて、Muon for ViTトレーニングについて研究し、AdamWと比較した。
MuonはAdamWを一貫して上回り、特に長い尾を持つPl@ntNet macro top-1で大きな利益を得ている。
これらの利益はレシピに依存しており、Muonは高度で重要なデータ拡張技術からAdamWよりもはるかに恩恵を受ける。
この相互作用を理解するために、ViT全体の行列勾配の特異値構造を解析する。
Muon トレーニングの実行内では、重データ拡張の除去は、遅延トレーニングスペクトル濃度と勾配行列のモード崩壊を、主に深い MLP ダウンブロックで引き起こす。
固定された「フル」増強法の下では、最も澄んだムーン・アダムワーのコントラストはQKV勾配に現れ、そこではアダムワーの勾配エネルギーはより狭い基底に集中し、ムーンはより特異なモードにエネルギーを拡散する。
したがって、ViTsのミューオンはオプティマイザとレシピの相互作用として最もよく理解されている。
固定されたレシピの下では、MuonはAdamWと最もはっきりと異なる注意投射であり、その勾配はより広いスペクトルベースから構成されている。
Muonの内部では、ディープフィードフォワードブロックの遅延スペクトル濃度とモード崩壊を防止するために、完全なトレーニングレシピが重要である。
さらに,イメージセグメンテーションとマスク付きオートエンコーダモデルにおけるViTのトレーニングの有効性を示す。
関連論文リスト
- LionMuon: Alternating Spectral and Sign Descent for Efficient Training [48.69598464267559]
平均コストを大幅に削減しつつ,Muonのステップの有効性を維持するLionMuonを提案する。
固定周期 P におけるライオンとムオンの更新を交互に行い、その間に1つのデュアルEMA運動量バッファを共有する。
シングルEMAのSignMuonは、それ自体が純粋なMuonを上回っている。
論文 参考訳(メタデータ) (2026-05-19T13:07:59Z) - Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training [0.0]
MUD(MomentUm Decorrelation)は,Muonの極点更新を三角形(Cholesky様)の白化代理に置き換える補完的な白化手法である。
MUDは、調整されたAdamWとMuonよりも、10-50%のウォールクロック改善を実現している。
また,EMM-2 150Mタンパク質言語モデルのトレーニングを行った。
論文 参考訳(メタデータ) (2026-03-18T17:37:31Z) - HTMuon: Improving Muon via Heavy-Tailed Spectral Correction [33.68909424458072]
ムオンの更新規則は重み付け重量の出現を抑制し、トレーニングの方向性を過度に強調する。
事前学習と画像分類の実験により、HTMuonは最先端のベースラインよりも一貫して性能を向上することが示された。
論文 参考訳(メタデータ) (2026-03-10T02:12:24Z) - NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training [50.27276603708547]
フルランク更新を行うにもかかわらず,無音訓練モデルでは重み行列の低ランク構造が顕著に示され,標準パイプラインで容易に圧縮可能であることを示す。
更新方向の核ノルム制約でミューオンを増強し,低ランク構造への学習重み付けをさらに制限するNuMuonを提案する。
論文 参考訳(メタデータ) (2026-03-04T00:10:14Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Delving into Muon and Beyond: Deep Analysis and Extensions [8.297062899157664]
We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
論文 参考訳(メタデータ) (2026-02-04T15:40:47Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - MetaFormer is Actually What You Need for Vision [175.86264904607785]
変換器のアテンションモジュールを、恥ずかしいほど単純な空間プーリング演算子に置き換える。
意外なことに、複数のコンピュータビジョンタスクにおいて、導出モデルが競合性能を達成することを観察する。
論文 参考訳(メタデータ) (2021-11-22T18:52:03Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。