Fugu-MT 論文翻訳(概要): The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm

論文の概要: The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm

arxiv url: http://arxiv.org/abs/2505.16932v2
Date: Tue, 03 Jun 2025 16:46:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.129146
Title: The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm
Title（参考訳）: 極性指数:最適行列符号法とそのミューオンアルゴリズムへの応用
Authors: Noah Amsel, David Persson, Christopher Musco, Robert M. Gower,
Abstract要約: 極性分解は、何十年もの間、数値解析においてよく研究されてきた問題である。ディープラーニング、特にMuon最適化フレームワークにおいて重要なサブルーチンとして登場した。極分解を計算するためのGPUフレンドリなアルゴリズムであるPolar Expressを紹介する。
参考スコア（独自算出の注目度）: 13.161119762690618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computing the polar decomposition and the related matrix sign function, has been a well-studied problem in numerical analysis for decades. More recently, it has emerged as an important subroutine in deep learning, particularly within the Muon optimization framework. However, the requirements in this setting differ significantly from those of traditional numerical analysis. In deep learning, methods must be highly efficient and GPU-compatible, but high accuracy is often unnecessary. As a result, classical algorithms like Newton-Schulz (which suffers from slow initial convergence) and methods based on rational functions (which rely on QR decompositions or matrix inverses) are poorly suited to this context. In this work, we introduce Polar Express, a GPU-friendly algorithm for computing the polar decomposition. Like classical polynomial methods such as Newton-Schulz, our approach uses only matrix-matrix multiplications, making it GPU-compatible. Motivated by earlier work of Chen & Chow and Nakatsukasa & Freund, Polar Express adapts the polynomial update rule at each iteration by solving a minimax optimization problem, and we prove that it enjoys a strong worst-case optimality guarantee. This property ensures both rapid early convergence and fast asymptotic convergence. We also address finite-precision issues, making it stable in bfloat16 in practice. We apply Polar Express within the Muon optimization framework and show consistent improvements in validation loss on large-scale models such as GPT-2, outperforming recent alternatives across a range of learning rates.
Abstract（参考訳）: 偏極分解と関連する行列記号関数の計算は、数十年にわたって数値解析においてよく研究されてきた問題である。最近では、特にMuon最適化フレームワークにおいて、ディープラーニングにおいて重要なサブルーチンとして登場した。しかし、この設定の要件は従来の数値解析の要件と大きく異なる。ディープラーニングでは、メソッドは高効率でGPU互換でなければならないが、高い精度は多くの場合不要である。その結果、ニュートン=シュルツ (Newton-Schulz) のような古典的なアルゴリズムや有理関数(QR分解や行列逆数に依存する)に基づく手法は、この文脈にはあまり適していない。本稿では、極分解を計算するためのGPUフレンドリなアルゴリズムであるPolar Expressを紹介する。ニュートン=シュルツのような古典的多項式法と同様に、我々の手法は行列行列行列乗法のみを用いており、GPU互換である。 Chen & Chow と Nakanaka & Freund の以前の研究に触発されて,Polar Express は最小限の最適化問題を解くことで,各イテレーションにおける多項式更新規則に適応し,最悪の最適性を保証することを証明した。この性質は、早期収束と高速漸近収束の両方を保証する。また、有限精度の問題にも対処し、実際にはbfloat16で安定している。我々は,Moon最適化フレームワークにPolar Expressを適用し,GPT-2のような大規模モデルの検証損失を一貫して改善した。

関連論文リスト

Inertial Quadratic Majorization Minimization with Application to Kernel Regularized Learning [1.0282274843007797]
外部補間(QMME)フレームワークを導入し,その逐次収束特性を確立する。実効性を示すために,大規模カーネル正規化学習問題にQMMEを適用した。
論文参考訳（メタデータ） (2025-07-06T05:17:28Z)
Towards Learning High-Precision Least Squares Algorithms with Sequence Models [42.217390215093516]
ソフトマックス変換器は高い精度の乗算を行うのに苦労していることを示す。既存のアーキテクチャやトレーニング手順に存在する制限を特定します。われわれは初めて、機械の精度に近い訓練を行う能力を実証した。
論文参考訳（メタデータ） (2025-03-15T23:25:11Z)
WENDy for Nonlinear-in-Parameters ODEs [1.9573380763700712]
WEN(Wak-form Estimation of Non-linear Dynamics)は、非線形インである通常の微分方程式の系に対応するために拡張される。提案手法の実用的メリットを実証するために,一連のベンチマークシステムに結果を提示する。
論文参考訳（メタデータ） (2025-02-13T01:40:21Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms [80.37846867546517]
カスタム目的の8つの異なるニューラルネットワークのトレーニング方法を示す。我々はその2次情報を経験的フィッシャー行列を通して活用する。ロスロスロスシブルアルゴリズムを用いて、少ない微分可能アルゴリズムに対する大幅な改善を実現する。
論文参考訳（メタデータ） (2024-10-24T18:02:11Z)
Optimizing Tensor Computation Graphs with Equality Saturation and Monte Carlo Tree Search [0.0]
モンテカルロ木探索を用いて優れた表現を構築するテンソルグラフ書き換え手法を提案する。提案手法は,既存の手法と比較して,ニューラルネットワークの推論速度を最大11%向上させる。
論文参考訳（メタデータ） (2024-10-07T22:22:02Z)
Stochastic Optimization for Non-convex Problem with Inexact Hessian Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。 TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文参考訳（メタデータ） (2023-10-18T10:29:58Z)
Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-11T07:28:35Z)
Efficient Graph Laplacian Estimation by Proximal Newton [12.05527862797306]
グラフ学習問題は、精度行列の最大極大推定(MLE)として定式化することができる。いくつかのアルゴリズム的特徴を利用した効率的な解法を得るための2次手法を開発した。
論文参考訳（メタデータ） (2023-02-13T15:13:22Z)
Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文参考訳（メタデータ） (2022-11-14T12:32:18Z)
The Curse of Unrolling: Rate of Differentiating Through Optimization [35.327233435055305]
未分化は反復解法を用いて解を近似し、計算経路を通して解を微分する。我々は,(1)高速収束につながる大きな学習率を選択することができるが,アルゴリズムが任意に長いバーンインフェーズを持つことを受け入れるか,あるいは(2)即時収束につながるより少ない学習率を選択するかのどちらかを示す。
論文参考訳（メタデータ） (2022-09-27T09:27:29Z)
Accelerated Proximal Alternating Gradient-Descent-Ascent for Nonconvex Minimax Machine Learning [12.069630105460766]
AltGDA(Alternating Table-descentascent)は、様々な機械学習アプリケーションで広く使われている計算最適化アルゴリズムである。本論文では,最小限の最適化問題を解くために,単一ループの高速なループ勾配計算アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-12-22T04:33:27Z)
Newton-LESS: Sparsification without Trade-offs for the Sketched Newton Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文参考訳（メタデータ） (2021-07-15T17:33:05Z)
Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文参考訳（メタデータ） (2021-06-02T22:03:36Z)
SHINE: SHaring the INverse Estimate from the forward pass for bi-level optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文参考訳（メタデータ） (2021-06-01T15:07:34Z)
Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文参考訳（メタデータ） (2020-12-11T08:28:51Z)
Gradient Free Minimax Optimization: Variance Reduction and Faster Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文参考訳（メタデータ） (2020-06-16T17:55:46Z)
Hardness of Random Optimization Problems for Boolean Circuits, Low-Degree Polynomials, and Langevin Dynamics [78.46689176407936]
アルゴリズムの族は高い確率でほぼ最適な解を生成できないことを示す。ブール回路の場合、回路複雑性理論で知られている最先端境界を改善する。
論文参考訳（メタデータ） (2020-04-25T05:45:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。