論文の概要: PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective
- arxiv url: http://arxiv.org/abs/2505.21799v1
- Date: Tue, 27 May 2025 22:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.314776
- Title: PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective
- Title(参考訳): PolarGrad: 統一プレコンディショニングの観点からの行列勾配最適化のクラス
- Authors: Tim Tsz-Kit Lau, Qi Long, Weijie Su,
- Abstract要約: 我々は、"マクロ認識"プリコンディショニング手法を解析するための統一フレームワークを提案する。
本稿では,行列値勾配の極分解に基づく事前条件付き最適化手法であるPolarGradを紹介する。
- 参考スコア(独自算出の注目度): 6.497756166630786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-growing scale of deep learning models and datasets underscores the critical importance of efficient optimization methods. While preconditioned gradient methods such as Adam and AdamW are the de facto optimizers for training neural networks and large language models, structure-aware preconditioned optimizers like Shampoo and Muon, which utilize the matrix structure of gradients, have demonstrated promising evidence of faster convergence. In this paper, we introduce a unifying framework for analyzing "matrix-aware" preconditioned methods, which not only sheds light on the effectiveness of Muon and related optimizers but also leads to a class of new structure-aware preconditioned methods. A key contribution of this framework is its precise distinction between preconditioning strategies that treat neural network weights as vectors (addressing curvature anisotropy) versus those that consider their matrix structure (addressing gradient anisotropy). This perspective provides new insights into several empirical phenomena in language model pre-training, including Adam's training instabilities, Muon's accelerated convergence, and the necessity of learning rate warmup for Adam. Building upon this framework, we introduce PolarGrad, a new class of preconditioned optimization methods based on the polar decomposition of matrix-valued gradients. As a special instance, PolarGrad includes Muon with updates scaled by the nuclear norm of the gradients. We provide numerical implementations of these methods, leveraging efficient numerical polar decomposition algorithms for enhanced convergence. Our extensive evaluations across diverse matrix optimization problems and language model pre-training tasks demonstrate that PolarGrad outperforms both Adam and Muon.
- Abstract(参考訳): ディープラーニングモデルとデータセットの継続的な拡大は、効率的な最適化方法の重要性を浮き彫りにしている。
AdamやAdamWのような事前条件付き勾配法はニューラルネットワークや大規模言語モデルをトレーニングするためのデファクトオプティマイザである一方、勾配の行列構造を利用するシャンプーやムーンのような構造対応の事前条件付き最適化法は、より高速な収束を示す有望な証拠である。
本稿では,Muonと関連するオプティマイザの有効性に光を当てるだけでなく,新しい構造対応プレコンディショニング手法のクラスを導出する「マトリクス対応」プリコンディショニング手法の統一化フレームワークを提案する。
このフレームワークの重要な貢献は、ニューラルネットワークの重みをベクトルとして扱うプレコンディショニング戦略 (addressing curvature anisotropy) と、行列構造(addressing gradient anisotropy)を考えるもの (addressing gradient anisotropy) とを正確に区別することである。
この視点は、アダムの訓練不安定性、ムオンの加速収束、アダムの学習率ウォームアップの必要性など、言語モデルの事前訓練における経験的現象に関する新たな洞察を提供する。
この枠組みに基づいて,行列値勾配の極分解に基づく事前条件付き最適化手法であるPolarGradを導入する。
特別な例として、PolarGradには、勾配の核ノルムによってスケールされた更新を含むMuonが含まれている。
本稿では,これらの手法の数値的実装を行い,効率的な数値偏極分解アルゴリズムを用いて収束性を向上させる。
様々な行列最適化問題や言語モデル事前学習タスクにまたがる広範な評価は、PolarGradがAdamとMuonより優れていることを示す。
関連論文リスト
- Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文 参考訳(メタデータ) (2025-02-11T11:48:04Z) - On The Concurrence of Layer-wise Preconditioning Methods and Provable Feature Learning [22.486361028522374]
統計的観点から,レイヤワイドプレコンディショニング手法が確実に必要であることを示す。
我々は,SGDが理想的等方性入力を超えて拡張する際の準最適特徴であることを示す。
我々は、Adamプリコンディショニングやバッチノームのような標準ツールがこれらの問題を緩やかに緩和することを示します。
論文 参考訳(メタデータ) (2025-02-03T19:08:32Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。