論文の概要: When do spectral gradient updates help in deep learning?
- arxiv url: http://arxiv.org/abs/2512.04299v1
- Date: Wed, 03 Dec 2025 22:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.906335
- Title: When do spectral gradient updates help in deep learning?
- Title(参考訳): スペクトル勾配の更新はディープラーニングにいつ役立つのか?
- Authors: Damek Davis, Dmitriy Drusvyatskiy,
- Abstract要約: 本稿では,スペクトル更新によってユークリッド勾配よりも損失の減少が大きくなることを予測できる簡単な条件を提案する。
我々はこれらの予測を合成回帰実験やナノGPTスケール言語モデルトレーニングで検証する。
- 参考スコア(独自算出の注目度): 7.5757345574662205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral gradient methods, such as the recently popularized Muon optimizer, are a promising alternative to standard Euclidean gradient descent for training deep neural networks and transformers, but it is still unclear in which regimes they are expected to perform better. We propose a simple layerwise condition that predicts when a spectral update yields a larger decrease in the loss than a Euclidean gradient step. This condition compares, for each parameter block, the squared nuclear-to-Frobenius ratio of the gradient to the stable rank of the incoming activations. To understand when this condition may be satisfied, we first prove that post-activation matrices have low stable rank at Gaussian initialization in random feature regression, feedforward networks, and transformer blocks. In spiked random feature models we then show that, after a short burn-in, the Euclidean gradient's nuclear-to-Frobenius ratio grows with the data dimension while the stable rank of the activations remains bounded, so the predicted advantage of spectral updates scales with dimension. We validate these predictions in synthetic regression experiments and in NanoGPT-scale language model training, where we find that intermediate activations have low-stable-rank throughout training and the corresponding gradients maintain large nuclear-to-Frobenius ratios. Together, these results identify conditions for spectral gradient methods, such as Muon, to be effective in training deep networks and transformers.
- Abstract(参考訳): 最近普及したMuonオプティマイザのようなスペクトル勾配法は、ディープニューラルネットワークやトランスフォーマーをトレーニングするための標準ユークリッド勾配降下法に代わる有望な方法である。
本稿では,スペクトル更新によってユークリッド勾配よりも損失が大きくなることを予測できる単純な層状条件を提案する。
この条件は、各パラメータブロックに対して、勾配の2乗核-フォロニウス比と、入ってくるアクティベーションの安定なランクを比較する。
この条件がいつ満たされるかを理解するために、まず、ポストアクティベーション行列がランダムな特徴回帰、フィードフォワードネットワーク、トランスフォーマーブロックにおけるガウス初期化において、低い安定したランクを持つことを示す。
スパイクされたランダムな特徴モデルでは、短いバーンインの後、ユークリッド勾配の核-フロベニウス比はデータ次元とともに増大し、アクティベーションの安定なランクは有界であり、スペクトル更新の予測上の利点は次元に応じてスケールする。
これらの予測は, 合成回帰実験やナノGPTスケールの言語モデルトレーニングにおいて検証され, 中間活性化はトレーニングを通して低安定度であり, 対応する勾配は核-フロベニウス比が大きいことが判明した。
これらの結果から,Muonのようなスペクトル勾配法が深層ネットワークや変圧器の訓練に有効であることを示す。
関連論文リスト
- Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - Gradient Equilibrium in Online Learning: Theory and Applications [56.02856551198923]
勾配平衡は標準オンライン学習法によって達成される。
勾配平衡は、オンライン予測問題において解釈可能かつ有意義な性質に変換される。
勾配平衡フレームワークは,ブラックボックス予測の偏りを緩和する手法の開発に利用できることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:59:09Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Comparing Classes of Estimators: When does Gradient Descent Beat Ridge
Regression in Linear Models? [46.01087792062936]
クラス内のEmphbestメソッドの相対的性能による推定器のクラスの比較を行う。
これにより、学習アルゴリズムのチューニング感度を厳格に定量化できます。
論文 参考訳(メタデータ) (2021-08-26T16:01:37Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。