論文の概要: Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization
- arxiv url: http://arxiv.org/abs/2503.12645v2
- Date: Tue, 08 Apr 2025 16:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:50.893808
- Title: Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization
- Title(参考訳): 非ユークリッド信頼-回帰最適化によるディープラーニングの勾配直交化の理解
- Authors: Dmitry Kovalev,
- Abstract要約: 動機付け行列化の理論解析を行う。
特に,非ユークリスキー信頼領域法が特別な事例であることを示す。
以上の結果から,いくつかの実測結果が得られた。
- 参考スコア(独自算出の注目度): 19.574602844234814
- License:
- Abstract: Optimization with matrix gradient orthogonalization has recently demonstrated impressive results in the training of deep neural networks (Jordan et al., 2024; Liu et al., 2025). In this paper, we provide a theoretical analysis of this approach. In particular, we show that the orthogonalized gradient method can be seen as a first-order trust-region optimization method, where the trust-region is defined in terms of the matrix spectral norm. Motivated by this observation, we develop the stochastic non-Euclidean trust-region gradient method with momentum, which recovers the Muon optimizer (Jordan et al., 2024) as a special case, along with normalized SGD and signSGD with momentum (Cutkosky and Mehta, 2020; Sun et al., 2023). In addition, we prove state-of-the-art convergence results for the proposed algorithm in a range of scenarios, which involve arbitrary non-Euclidean norms, constrained and composite problems, and non-convex, star-convex, first- and second-order smooth functions. Finally, our theoretical findings provide an explanation for several practical observations, including the practical superiority of Muon compared to the Orthogonal-SGDM algorithm of Tuddenham et al. (2022) and the importance of weight decay in the training of large-scale language models.
- Abstract(参考訳): 行列勾配の直交化による最適化は、最近ディープニューラルネットワーク(Jordan et al , 2024; Liu et al , 2025)のトレーニングにおいて、顕著な結果を示した(Jordan et al , 2024; Liu et al , 2025)。
本稿では,本手法の理論的解析について述べる。
特に、直交勾配法は、信頼領域が行列スペクトルノルムで定義される一階信頼領域最適化法とみなすことができる。
本研究の目的は,モーメントを持つ確率的非ユークリッド的信頼区間勾配法を開発し,モーメントを持つ正規化SGDと符号SGDとともに,ムオンオプティマイザ(Jordan et al , 2024)を特殊ケースとして回収することである(Cutkosky and Mehta, 2020; Sun et al , 2023)。
さらに, 任意の非ユークリッドノルム, 制約付き, 複合問題, 非凸, 星凸, 第一次および第二次滑らかな関数を含む様々なシナリオにおいて, 提案アルゴリズムの最先端収束結果を証明した。
最後に,Tuddenham et al (2022)のOrthogonal-SGDMアルゴリズムと比較して,Muonの実用的優位性や,大規模言語モデルの訓練における重量減衰の重要性など,いくつかの実測結果について述べる。
関連論文リスト
- Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent [14.19520637866741]
我々は、勾配勾配のポリアック=ルパート平均的反復に対する中心極限定理において、非漸近収束率を確立する。
最適化問題に対する信頼度セットを構築するための乗算器ブートストラップの非漸近的妥当性を実証する。
論文 参考訳(メタデータ) (2025-02-10T17:49:05Z) - High-accuracy sampling from constrained spaces with the Metropolis-adjusted Preconditioned Langevin Algorithm [12.405427902037971]
本稿では,$mathbbRd$の適切な凸部分集合である対象分布から近似サンプリングを行う1次サンプリング法を提案する。
提案手法は,事前条件付きLangevinアルゴリズムの単一ステップで生成したマルコフ連鎖にメトロポリス・ハスティングスフィルタを適用した結果である。
論文 参考訳(メタデータ) (2024-12-24T23:21:23Z) - Extended convexity and smoothness and their applications in deep learning [5.281849820329249]
本稿では,複合最適化問題のクラス,特にディープラーニングにおける理論的基礎を提供するための最適化フレームワークを提案する。
我々は、$mathcalH(Phi)$-smoothness である対象関数に対するリプシッツの降下法と降下法の滑らかさを解析する。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - A theoretical and empirical study of new adaptive algorithms with
additional momentum steps and shifted updates for stochastic non-convex
optimization [0.0]
適応最適化アルゴリズムは学習分野の鍵となる柱を表現していると考えられる。
本稿では,異なる非滑らかな目的問題に対する適応運動量法を提案する。
論文 参考訳(メタデータ) (2021-10-16T09:47:57Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。