論文の概要: How Muon's Spectral Design Benefits Generalization: A Study on Imbalanced Data
- arxiv url: http://arxiv.org/abs/2510.22980v1
- Date: Mon, 27 Oct 2025 04:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.583959
- Title: How Muon's Spectral Design Benefits Generalization: A Study on Imbalanced Data
- Title(参考訳): ムオンのスペクトル設計が一般化にどう貢献するか:不均衡データに関する研究
- Authors: Bhavya Vasudeva, Puneesh Deora, Yize Zhao, Vatsal Sharan, Christos Thrampoulidis,
- Abstract要約: 本研究では,Muon や Shampoo などのスペクトル対応行列の一般化が競合アルゴリズムより優れていることを示す。
様々な不均衡データセットに関する理論的知見を実証的に検証する。
- 参考スコア(独自算出の注目度): 38.54408542311739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing adoption of spectrum-aware matrix-valued optimizers such as Muon and Shampoo in deep learning motivates a systematic study of their generalization properties and, in particular, when they might outperform competitive algorithms. We approach this question by introducing appropriate simplifying abstractions as follows: First, we use imbalanced data as a testbed. Second, we study the canonical form of such optimizers, which is Spectral Gradient Descent (SpecGD) -- each update step is $UV^T$ where $U\Sigma V^T$ is the truncated SVD of the gradient. Third, within this framework we identify a canonical setting for which we precisely quantify when SpecGD outperforms vanilla Euclidean GD. For a Gaussian mixture data model and both linear and bilinear models, we show that unlike GD, which prioritizes learning dominant principal components of the data first, SpecGD learns all principal components of the data at equal rates. We demonstrate how this translates to a growing gap in balanced accuracy favoring SpecGD early in training and further show that the gap remains consistent even when the GD counterpart uses adaptive step-sizes via normalization. By extending the analysis to deep linear models, we show that depth amplifies these effects. We empirically verify our theoretical findings on a variety of imbalanced datasets. Our experiments compare practical variants of spectral methods, like Muon and Shampoo, against their Euclidean counterparts and Adam. The results validate our findings that these spectral optimizers achieve superior generalization by promoting a more balanced learning of the data's underlying components.
- Abstract(参考訳): 深層学習におけるMuonやShampooのようなスペクトル対応行列値オプティマイザの採用の増加は、それらの一般化特性の体系的研究を動機付けており、特に競合アルゴリズムよりも優れる可能性がある。
まず、不均衡なデータをテストベッドとして使用します。
第2に、このようなオプティマイザの標準形式(Spectral Gradient Descent (SpecGD))について検討し、各更新ステップは$UV^T$であり、ここでは$U\Sigma V^T$が勾配の切り詰められたSVDである。
第3に、このフレームワーク内では、SpecGDがバニラ・ユークリッド GD を上回ったときの正確な定量化のための標準設定を特定する。
ガウス混合データモデルと線形モデルと双線形モデルでは、データの主成分を優先的に学習するGDとは異なり、SpecGDはデータの主成分を等速で学習する。
トレーニングの初期段階でSpecGDを優先するバランスの取れた精度のギャップが増加し,GDが正規化による適応的なステップサイズを使用する場合においても,そのギャップは一定であることを示す。
解析を深い線形モデルに拡張することにより、深度がこれらの効果を増幅することを示す。
様々な不均衡データセットに関する理論的知見を実証的に検証する。
実験では、ムオンやシャンプーのようなスペクトル法をユークリッド法やアダム法と比較した。
その結果、これらのスペクトルオプティマイザは、データの基盤となるコンポーネントのよりバランスのとれた学習を促進することにより、より優れた一般化を実現するという結果が得られた。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Training [7.5041863920639456]
機械学習システムは、データの望ましくない特徴を活用してバイアスを取得し、異なるサブポピュレーションの精度に影響を与えることが多い。
本稿では, ガウス混合モデルを用いて, 教師学生によるデータサブポピュレーションのモデル化におけるバイアスの進化について検討する。
この発見を公平性と堅牢性に適用することで、不均一なデータと突発的な特徴がバイアスを発生し増幅する方法について、いつ、どのように、どのように、どのようにして、そして、どのようにして、そのバイアスを増大させるかを説明します。
論文 参考訳(メタデータ) (2024-05-28T15:50:10Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Spectral Evolution and Invariance in Linear-width Neural Networks [8.419660614226816]
線形幅フィードフォワードニューラルネットワークのスペクトル特性について検討する。
この高次元構造における重みのスペクトルは、小さな定常学習率の勾配降下によって訓練されたときに不変であることを示す。
また,テストエラーや特徴学習の少ない適応的勾配学習では,重みとカーネルの両方に重みが認められた。
論文 参考訳(メタデータ) (2022-11-11T23:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。