論文の概要: The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm
- arxiv url: http://arxiv.org/abs/2505.16932v3
- Date: Thu, 25 Sep 2025 20:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.376808
- Title: The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm
- Title(参考訳): 極性指数:最適行列符号法とそのミューオンアルゴリズムへの応用
- Authors: Noah Amsel, David Persson, Christopher Musco, Robert M. Gower,
- Abstract要約: 極分解を計算するための新しい手法であるPolar Expressを紹介する。
この戦略が最悪の場合においてエラーを最小限に抑え、極極急行をできるだけ早く収束させることができることを実証する。
Muon トレーニングフレームワークに統合されると,本手法は検証損失を一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 24.020943794160555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computing the polar decomposition and the related matrix sign function has been a well-studied problem in numerical analysis for decades. Recently, it has emerged as an important subroutine within the Muon algorithm for training deep neural networks. However, the requirements of this application differ sharply from classical settings: deep learning demands GPU-friendly algorithms that prioritize high throughput over high precision. We introduce Polar Express, a new method for computing the polar decomposition. Like Newton-Schulz and other classical polynomial methods, our approach uses only matrix-matrix multiplications, making it very efficient on GPUs. Inspired by earlier work of Chen & Chow and Nakatsukasa & Freund, Polar Express adapts the update rule at each iteration by solving a minimax optimization problem. We prove that this strategy minimizes error in a worst-case sense, allowing Polar Express to converge as rapidly as possible both in the early iterations and asymptotically. We also address finite-precision issues, making it practical to use in bfloat16. When integrated into the Muon training framework, our method leads to consistent improvements in validation loss when training a GPT-2 model on one billion tokens from the FineWeb dataset, outperforming recent alternatives across a range of learning rates.
- Abstract(参考訳): 偏極分解と関連する行列記号関数の計算は、数十年にわたって数値解析においてよく研究されてきた問題である。
最近では、深層ニューラルネットワークをトレーニングするMuonアルゴリズムにおいて、重要なサブルーチンとして登場した。
しかし、このアプリケーションの要件は古典的な設定と大きく異なり、ディープラーニングは高いスループットを高い精度で優先するGPUフレンドリなアルゴリズムを必要とする。
極分解を計算するための新しい手法であるPolar Expressを紹介する。
ニュートン=シュルツや他の古典多項式法と同様に、我々の手法は行列行列行列乗法のみを用いており、GPU上では非常に効率的である。
Chen & Chow と Nakanaka & Freund の以前の研究に触発されて,Polar Express はミニマックス最適化問題を解くことで,各イテレーションで更新ルールを適用している。
この戦略が最悪の場合においてエラーを最小限に抑え、Polar Expressをできるだけ早く初期イテレーションと漸近的に収束させることができることを実証する。
また、有限精度の問題にも対処し、bfloat16での使用を実用的なものにしている。
In the Muon training framework, our method to make consistent improve in validation loss when training a GPT-2 model on the 10 billion tokens from the FineWeb dataset, a recent alternatives across a range of learning rate。
関連論文リスト
- Inertial Quadratic Majorization Minimization with Application to Kernel Regularized Learning [1.0282274843007797]
外部補間(QMME)フレームワークを導入し,その逐次収束特性を確立する。
実効性を示すために,大規模カーネル正規化学習問題にQMMEを適用した。
論文 参考訳(メタデータ) (2025-07-06T05:17:28Z) - WENDy for Nonlinear-in-Parameters ODEs [1.9573380763700712]
WEN(Wak-form Estimation of Non-linear Dynamics)は、非線形インである通常の微分方程式の系に対応するために拡張される。
提案手法の実用的メリットを実証するために,一連のベンチマークシステムに結果を提示する。
論文 参考訳(メタデータ) (2025-02-13T01:40:21Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Efficient Graph Laplacian Estimation by Proximal Newton [12.05527862797306]
グラフ学習問題は、精度行列の最大極大推定(MLE)として定式化することができる。
いくつかのアルゴリズム的特徴を利用した効率的な解法を得るための2次手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T15:13:22Z) - The Curse of Unrolling: Rate of Differentiating Through Optimization [35.327233435055305]
未分化は反復解法を用いて解を近似し、計算経路を通して解を微分する。
我々は,(1)高速収束につながる大きな学習率を選択することができるが,アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか,あるいは(2)即時収束につながるより少ない学習率を選択するかのどちらかを示す。
論文 参考訳(メタデータ) (2022-09-27T09:27:29Z) - Accelerated Proximal Alternating Gradient-Descent-Ascent for Nonconvex
Minimax Machine Learning [12.069630105460766]
AltGDA(Alternating Table-descentascent)は、様々な機械学習アプリケーションで広く使われている計算最適化アルゴリズムである。
本論文では,最小限の最適化問題を解くために,単一ループの高速なループ勾配計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-22T04:33:27Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Hardness of Random Optimization Problems for Boolean Circuits,
Low-Degree Polynomials, and Langevin Dynamics [78.46689176407936]
アルゴリズムの族は高い確率でほぼ最適な解を生成できないことを示す。
ブール回路の場合、回路複雑性理論で知られている最先端境界を改善する。
論文 参考訳(メタデータ) (2020-04-25T05:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。