論文の概要: The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm
- arxiv url: http://arxiv.org/abs/2505.16932v1
- Date: Thu, 22 May 2025 17:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.494163
- Title: The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm
- Title(参考訳): 極性指数:最適行列符号法とそのミューオンアルゴリズムへの応用
- Authors: Noah Amsel, David Persson, Christopher Musco, Robert Gower,
- Abstract要約: 極性分解は、何十年もの間、数値解析においてよく研究されてきた問題である。
ディープラーニング、特にMuon最適化フレームワークにおいて重要なサブルーチンとして登場した。
極分解を計算するためのGPUフレンドリなアルゴリズムであるPolar Expressを紹介する。
- 参考スコア(独自算出の注目度): 8.261301211870041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computing the polar decomposition and the related matrix sign function, has been a well-studied problem in numerical analysis for decades. More recently, it has emerged as an important subroutine in deep learning, particularly within the Muon optimization framework. However, the requirements in this setting differ significantly from those of traditional numerical analysis. In deep learning, methods must be highly efficient and GPU-compatible, but high accuracy is often unnecessary. As a result, classical algorithms like Newton-Schulz (which suffers from slow initial convergence) and methods based on rational functions (which rely on QR decompositions or matrix inverses) are poorly suited to this context. In this work, we introduce Polar Express, a GPU-friendly algorithm for computing the polar decomposition. Like classical polynomial methods such as Newton-Schulz, our approach uses only matrix-matrix multiplications, making it GPU-compatible. Motivated by earlier work of Chen & Chow and Nakatsukasa & Freund, Polar Express adapts the polynomial update rule at each iteration by solving a minimax optimization problem, and we prove that it enjoys a strong worst-case optimality guarantee. This property ensures both rapid early convergence and fast asymptotic convergence. We also address finite-precision issues, making it stable in bfloat16 in practice. We apply Polar Express within the Muon optimization framework and show consistent improvements in validation loss on large-scale models such as GPT-2, outperforming recent alternatives across a range of learning rates.
- Abstract(参考訳): 偏極分解と関連する行列記号関数の計算は、数十年にわたって数値解析においてよく研究されてきた問題である。
最近では、特にMuon最適化フレームワークにおいて、ディープラーニングにおいて重要なサブルーチンとして登場した。
しかし、この設定の要件は従来の数値解析の要件と大きく異なる。
ディープラーニングでは、メソッドは高効率でGPU互換でなければならないが、高い精度は多くの場合不要である。
その結果、ニュートン=シュルツ (Newton-Schulz) のような古典的なアルゴリズムや有理関数(QR分解や行列逆数に依存する)に基づく手法は、この文脈にはあまり適していない。
本稿では、極分解を計算するためのGPUフレンドリなアルゴリズムであるPolar Expressを紹介する。
ニュートン=シュルツのような古典的多項式法と同様に、我々の手法は行列行列行列乗法のみを用いており、GPU互換である。
Chen & Chow と Nakanaka & Freund の以前の研究に触発されて,Polar Express は最小限の最適化問題を解くことで,各イテレーションにおける多項式更新規則に適応し,最悪の最適性を保証することを証明した。
この性質は、早期収束と高速漸近収束の両方を保証する。
また、有限精度の問題にも対処し、実際にはbfloat16で安定している。
我々は,Moon最適化フレームワークにPolar Expressを適用し,GPT-2のような大規模モデルの検証損失を一貫して改善した。
関連論文リスト
- WENDy for Nonlinear-in-Parameters ODEs [1.9573380763700712]
WEN(Wak-form Estimation of Non-linear Dynamics)は、非線形インである通常の微分方程式の系に対応するために拡張される。
提案手法の実用的メリットを実証するために,一連のベンチマークシステムに結果を提示する。
論文 参考訳(メタデータ) (2025-02-13T01:40:21Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Efficient Graph Laplacian Estimation by Proximal Newton [12.05527862797306]
グラフ学習問題は、精度行列の最大極大推定(MLE)として定式化することができる。
いくつかのアルゴリズム的特徴を利用した効率的な解法を得るための2次手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T15:13:22Z) - The Curse of Unrolling: Rate of Differentiating Through Optimization [35.327233435055305]
未分化は反復解法を用いて解を近似し、計算経路を通して解を微分する。
我々は,(1)高速収束につながる大きな学習率を選択することができるが,アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか,あるいは(2)即時収束につながるより少ない学習率を選択するかのどちらかを示す。
論文 参考訳(メタデータ) (2022-09-27T09:27:29Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Hardness of Random Optimization Problems for Boolean Circuits,
Low-Degree Polynomials, and Langevin Dynamics [78.46689176407936]
アルゴリズムの族は高い確率でほぼ最適な解を生成できないことを示す。
ブール回路の場合、回路複雑性理論で知られている最先端境界を改善する。
論文 参考訳(メタデータ) (2020-04-25T05:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。