論文の概要: Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization
- arxiv url: http://arxiv.org/abs/2602.06880v1
- Date: Fri, 06 Feb 2026 17:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.500207
- Title: Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization
- Title(参考訳): 統一ベクトルと行列最適化のための適応型勾配ディフレッシュにおける変数とスケール不変のデカップリング
- Authors: Zitao Song, Cedar Site Bai, Zhe Zhang, Brian Bullins, David F. Gleich,
- Abstract要約: 我々はAdaGradの更新を改訂し、分散適応項とスケール不変項に分解する。
これは、ベクトルベースの分散適応と行列スペクトル最適化をブリッジするフレームワークである、textbfDeVA$$textbfV$ariance $textbfA$daptationを生成する。
- 参考スコア(独自算出の注目度): 14.136955342888987
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adaptive methods like Adam have become the $\textit{de facto}$ standard for large-scale vector and Euclidean optimization due to their coordinate-wise adaptation with a second-order nature. More recently, matrix-based spectral optimizers like Muon (Jordan et al., 2024b) show the power of treating weight matrices as matrices rather than long vectors. Linking these is hard because many natural generalizations are not feasible to implement, and we also cannot simply move the Adam adaptation to the matrix spectrum. To address this, we reformulate the AdaGrad update and decompose it into a variance adaptation term and a scale-invariant term. This decoupling produces $\textbf{DeVA}$ ($\textbf{De}$coupled $\textbf{V}$ariance $\textbf{A}$daptation), a framework that bridges between vector-based variance adaptation and matrix spectral optimization, enabling a seamless transition from Adam to adaptive spectral descent. Extensive experiments across language modeling and image classification demonstrate that DeVA consistently outperforms state-of-the-art methods such as Muon and SOAP (Vyas et al., 2024), reducing token usage by around 6.6\%. Theoretically, we show that the variance adaptation term effectively improves the blockwise smoothness, facilitating faster convergence. Our implementation is available at https://github.com/Tsedao/Decoupled-Variance-Adaptation
- Abstract(参考訳): アダムのような適応的手法は、大規模ベクトルとユークリッド最適化のための $\textit{de facto}$ 標準となっている。
最近では、Muon (Jordan et al , 2024b) のような行列ベースのスペクトルオプティマイザは、長いベクトルではなく行列として重み行列を扱う力を示している。
これらをリンクすることは、多くの自然な一般化が実装できないため困難であり、またAdam適応を行列スペクトルに移すことも不可能である。
これを解決するために、AdaGradの更新を再構成し、分散適応項とスケール不変項に分解する。
この分離によって$\textbf{DeVA}$$$\textbf{De}$coupled $\textbf{V}$ariance $\textbf{A}$daptationが生成される。
言語モデリングと画像分類に関する大規模な実験は、DeVAがムーンやSOAP(Vyas et al , 2024)のような最先端の手法を一貫して上回り、トークンの使用量を約6.6\%削減していることを示している。
理論的には、分散適応項はブロック方向の滑らかさを効果的に改善し、より高速な収束を促進することが示される。
実装はhttps://github.com/Tsedao/Decoupled-Variance-Adaptationで公開しています。
関連論文リスト
- Multivariate Variational Autoencoder [0.08460698440162889]
斜め後部制限を持ち上げながらガウス的トラクタビリティを保ったVAE変異体を提案する。
MVAEは後続の共分散を分解し、そこでは共役結合行列$mathbfC$がデータセット全体の潜在相関を誘導する。
公正な比較と再利用を容易にするために、トレーニング/評価スクリプトとスイープユーティリティを備えた、完全に再現可能な実装をリリースする。
論文 参考訳(メタデータ) (2025-11-08T16:52:53Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Dynamic Low-rank Approximation of Full-Matrix Preconditioner for Training Generalized Linear Models [43.79587815909472]
AdaGramは効率の良い完全行列適応勾配更新である。
AdaGramは、ランク5とより小さいランク近似を使用する場合、より速く収束するか、対角アダプティブのパフォーマンスに適合する。
これは、大規模モデルにおける適応最適化のためのスケーラブルなソリューションとしてのAdaGramの可能性を示している。
論文 参考訳(メタデータ) (2025-08-28T13:15:05Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文 参考訳(メタデータ) (2025-02-11T11:48:04Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。