論文の概要: Uniform Spectral Growth and Convergence of Muon in LoRA-Style Matrix Factorization
- arxiv url: http://arxiv.org/abs/2602.06385v1
- Date: Fri, 06 Feb 2026 04:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.237519
- Title: Uniform Spectral Growth and Convergence of Muon in LoRA-Style Matrix Factorization
- Title(参考訳): LoRA-Style Matrix Factorizationにおけるムオンの均一スペクトル成長と収束
- Authors: Changmin Kang, Jihun Yun, Baekrok Shin, Yeseul Cho, Chulhee Yun,
- Abstract要約: 低ランク適応 (LoRA) 条件下では, ムオンの下で特異なスペクトル現象がみられた。
簡易なLORA式行列分解設定において、スペクトル勾配流(SpecGF)をSpecGD-の連続的なアナログとして解析する。
- 参考スコア(独自算出の注目度): 24.166134750040484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectral gradient descent (SpecGD) orthogonalizes the matrix parameter updates and has inspired practical optimizers such as Muon. They often perform well in large language model (LLM) training, but their dynamics remain poorly understood. In the low-rank adaptation (LoRA) setting, where weight updates are parameterized as a product of two low-rank factors, we find a distinctive spectral phenomenon under Muon in LoRA fine-tuning of LLMs: singular values of the LoRA product show near-uniform growth across the spectrum, despite orthogonalization being performed on the two factors separately. Motivated by this observation, we analyze spectral gradient flow (SpecGF)-a continuous-time analogue of SpecGD-in a simplified LoRA-style matrix factorization setting and prove "equal-rate" dynamics: all singular values grow at equal rates up to small deviations. Consequently, smaller singular values attain their target values earlier than larger ones, sharply contrasting with the largest-first stepwise learning observed in standard gradient flow. Moreover, we prove that SpecGF in our setting converges to global minima from almost all initializations, provided the factor norms remain bounded; with $\ell_2$ regularization, we obtain global convergence. Lastly, we corroborate our theory with experiments in the same setting.
- Abstract(参考訳): スペクトル勾配降下(SpecGD)は行列パラメータの更新を直交させ、Muonのような実用的なオプティマイザにインスピレーションを与えた。
大規模な言語モデル(LLM)のトレーニングではよく機能するが、そのダイナミクスはいまだによく理解されていない。
低ランク適応 (LoRA) では, 2つの低ランク因子の積として重み更新がパラメータ化されるが, LLMの微調整において, Muon の下では特異なスペクトル現象がみられた。
この観測によって得られたスペクトル勾配流 (SpecGF) は,SpecGD-in の連続的アナログであり,単純化された LoRA-style matrix factorization 設定を用いて解析し,全ての特異値が小偏差まで等速で成長する「等速」ダイナミクスを証明した。
その結果、より小さい特異値は、標準勾配流で観測される最大のステップワイズ学習と鋭く対照的に、より大きな値よりも早く目標値を得ることができた。
さらに、この設定における SpecGF がほとんどすべての初期化から大域最小化に収束することを証明し、因子ノルムが有界であるならば、$\ell_2$正則化では、大域収束が得られる。
最後に、我々の理論を同じ環境での実験と相関させる。
関連論文リスト
- Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Understanding the Learning Dynamics of LoRA: A Gradient Flow Perspective on Low-Rank Adaptation in Matrix Factorization [7.940066909711888]
我々は、勾配流(GF)下での行列分解のためのローランド適応(LoRA)の学習ダイナミクスを解析する。
解析の結果,最終誤差は,事前学習されたモデルの特異空間と対象行列との間の不整合によって影響を受けることがわかった。
論文 参考訳(メタデータ) (2025-03-10T06:57:10Z) - LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [16.360816770124874]
LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - DiffoRA: Enabling Parameter-Efficient Fine-Tuning via Differential Module Selection [32.369133126167085]
Low-Rank Adaptation (LoRA) は、既存のトレーニング済みモデルに低ランク行列を組み込むことで、その合理化設計で人気を博している。
本稿では,低ランク分解行列を適応的に適用可能なDiffoRAを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - Critical behavior of the Schwinger model via gauge-invariant VUMPS [0.0]
変分一様行列積状態(VUMPS)アルゴリズムとゲージ不変行列積 ansatz を組み合わせた格子シュウィンガーモデルについて検討した。
同時臨界・極限連続体におけるスケーリングを解析し、データの崩壊が顕著な精度でIsingクラスと一致していることを確認する。
論文 参考訳(メタデータ) (2024-12-04T18:59:18Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Hyperspectral Image Denoising Using Non-convex Local Low-rank and Sparse
Separation with Spatial-Spectral Total Variation Regularization [49.55649406434796]
本研究では,HSI復調のためのロバストな主成分分析のための新しい非特異なアプローチを提案する。
我々は、ランクとスパースコンポーネントの両方に対する正確な近似を開発する。
シミュレーションと実HSIの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-08T11:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。