論文の概要: Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization
- arxiv url: http://arxiv.org/abs/2503.12645v1
- Date: Sun, 16 Mar 2025 20:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:32.358894
- Title: Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization
- Title(参考訳): 非ユークリッド信頼-回帰最適化によるディープラーニングの勾配直交化の理解
- Authors: Dmitry Kovalev,
- Abstract要約: 本稿では,動機付け行列の直交化に関する理論的解析を行う。
モーメントを持つ信頼領域勾配法は,特別の場合としてムオン(Jordan et al., 2024)を回復させることを示す。
以上の結果から,TuddenhamらのOrthogonal---------SGDMと比較して,Muonの実用上の優位性について解説した(2022年)。
- 参考スコア(独自算出の注目度): 19.574602844234814
- License:
- Abstract: Optimization with matrix gradient orthogonalization has recently demonstrated impressive results in the training of deep neural networks (Jordan et al., 2024; Liu et al., 2025). In this paper, we provide a theoretical analysis of this approach. In particular, we show that the orthogonalized gradient method can be seen as a first-order trust-region optimization method, where the trust-region is defined in terms of the matrix spectral norm. Motivated by this observation, we provide the first theoretical analysis of the stochastic non-Euclidean trust-region gradient method with momentum, which recovers the Muon optimizer (Jordan et al., 2024) as a special case. In addition, we establish the convergence of the normalized SGD with momentum (Cutkosky and Mehta, 2020) in the constrained and composite setting, show that its iteration complexity of finding an $\varepsilon$-accurate solution can be improved from $\mathcal{O}(\varepsilon^{-3.5})$ to $\mathcal{O}(\varepsilon^{-3})$ under the star-convexity assumption, and obtain similar results for the Muon algorithm. Finally, our theoretical findings provide an explanation for the practical superiority of Muon compared to the Orthogonal-SGDM algorithm of Tuddenham et al. (2022).
- Abstract(参考訳): 行列勾配の直交化による最適化は、最近ディープニューラルネットワーク(Jordan et al , 2024; Liu et al , 2025)のトレーニングにおいて、顕著な結果を示した(Jordan et al , 2024; Liu et al , 2025)。
本稿では,本手法の理論的解析について述べる。
特に、直交勾配法は、信頼領域が行列スペクトルノルムで定義される一階信頼領域最適化法とみなすことができる。
本研究は, モーメントを用いた確率的非ユークリッド信頼領域勾配法の最初の理論的解析を行い, ムーン最適化器 (Jordan et al , 2024) を特殊ケースとして回収する。
さらに、正規化された SGD の運動量(Cutkosky と Mehta, 2020)を制約付き合成条件で収束させることで、$\varepsilon$-accurate の解を求める反復複雑性が $\mathcal{O}(\varepsilon^{-3.5})$ から $\mathcal{O}(\varepsilon^{-3})$ に改善できることを示し、Muon アルゴリズムも同様の結果が得られる。
最後に,Tuddenham et al (2022)のOrthogonal-SGDMアルゴリズムと比較して,Muonの実用上の優位性について解説した。
関連論文リスト
- Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent [14.19520637866741]
我々は、勾配勾配のポリアック=ルパート平均的反復に対する中心極限定理において、非漸近収束率を確立する。
最適化問題に対する信頼度セットを構築するための乗算器ブートストラップの非漸近的妥当性を実証する。
論文 参考訳(メタデータ) (2025-02-10T17:49:05Z) - High-accuracy sampling from constrained spaces with the Metropolis-adjusted Preconditioned Langevin Algorithm [12.405427902037971]
本稿では,$mathbbRd$の適切な凸部分集合である対象分布から近似サンプリングを行う1次サンプリング法を提案する。
提案手法は,事前条件付きLangevinアルゴリズムの単一ステップで生成したマルコフ連鎖にメトロポリス・ハスティングスフィルタを適用した結果である。
論文 参考訳(メタデータ) (2024-12-24T23:21:23Z) - Extended convexity and smoothness and their applications in deep learning [5.281849820329249]
本稿では,複合最適化問題のクラス,特にディープラーニングにおける理論的基礎を提供するための最適化フレームワークを提案する。
我々は、$mathcalH(Phi)$-smoothness である対象関数に対するリプシッツの降下法と降下法の滑らかさを解析する。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - A theoretical and empirical study of new adaptive algorithms with
additional momentum steps and shifted updates for stochastic non-convex
optimization [0.0]
適応最適化アルゴリズムは学習分野の鍵となる柱を表現していると考えられる。
本稿では,異なる非滑らかな目的問題に対する適応運動量法を提案する。
論文 参考訳(メタデータ) (2021-10-16T09:47:57Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。