論文の概要: AuON: A Linear-time Alternative to Semi-Orthogonal Momentum Updates
- arxiv url: http://arxiv.org/abs/2509.24320v2
- Date: Tue, 30 Sep 2025 06:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.8759
- Title: AuON: A Linear-time Alternative to Semi-Orthogonal Momentum Updates
- Title(参考訳): AuON: 半直交モーメント更新のリニアタイム代替
- Authors: Dipan Maity,
- Abstract要約: 運動量に基づく更新の半直交特性について検討し、スペクトルノルム信頼領域下での運動量更新を束縛する方法を開発した。
半直交行列を構成することなく強い性能を達成する線形時間であるAuON(正規化非線形スケーリングによる代替単位ノルム運動量更新)を提案する。
提案手法は, 双極子-コサインRMSスケーリング変換と正規化を組み合わせることで, ニュートン-シュルツ法と比較して, 有効性と計算効率の両立を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Orthogonal gradient updates have emerged as a promising direction in optimization for machine learning. However, traditional approaches such as SVD/QR decomposition incur prohibitive computational costs of O(n^3) and underperform compared to well-tuned SGD with momentum, since momentum is applied only after strict orthogonalization. Recent advances, such as Muon, improve efficiency by applying momentum before orthogonalization and producing semi-orthogonal matrices via Newton-Schulz iterations, reducing complexity to O(n^2). Nevertheless, quadratic costs remain a bottleneck. In this work, we study the semi-orthogonal properties of momentum-based updates and develop a method to bound momentum updates under a spectral-norm trust region, preserving directional information without requiring explicit semi-orthogonalization. We propose AuON (Alternative Unit-norm momentum updates by Normalized nonlinear scaling), a linear-time optimizer that achieves strong performance without constructing semi-orthogonal matrices, while preserving structural alignment and reconditioning ill-posed updates. Our approach combines hyperbolic-cosine RMS scaling transformations with normalization, demonstrating both effectiveness and computational efficiency compared to Newton-Schulz methods. We further introduce a hybrid variant (Hybrid-AuON) that applies a single Newton-Schulz iteration. Experiments across vision and language benchmarks show that AuON and its hybrid variant achieve performance comparable to strong baselines such as AdamW and Muon. Code is available at: https://github.com/ryyzn9/AuON
- Abstract(参考訳): 直交勾配の更新は機械学習の最適化において有望な方向として現れている。
しかし、SVD/QR分解のような従来の手法は、厳密な直交化の後にのみ運動量を適用するため、O(n^3) の禁制的な計算コストと運動量を持つ十分に調整された SGD よりも性能が低い。
ミューオンのような最近の進歩は、直交前に運動量を適用し、ニュートン・シュルツの反復を通して半直交行列を生成することによって効率を向上し、O(n^2)に複雑性を減少させる。
それでも、二次コストはボトルネックのままである。
本研究では,運動量に基づく更新の半直交特性について検討し,スペクトルノルム信頼領域下での運動量更新の有界化手法を開発した。
半直交行列を構築せずに高い性能を実現する線形時間最適化器であるAuON(Alternative Unit-norm momentum updates by normalized non scaling)を提案する。
提案手法は, 双極子-コサインRMSスケーリング変換と正規化を組み合わせることで, ニュートン-シュルツ法と比較して, 有効性と計算効率の両立を実証する。
さらに、1つのニュートン・シュルツ反復を適用するハイブリッド変種 (Hybrid-AuON) を導入する。
ビジョンと言語ベンチマークによる実験では、AdamWやMuonのような強力なベースラインに匹敵するパフォーマンスを実現している。
コードは、https://github.com/ryyzn9/AuONで入手できる。
関連論文リスト
- Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum [5.049533819651459]
雑音適応を伴う運動量の最初の原理的統合を提供するため、新しい対角拡張NAMOとNAMO-Dを提案する。
NAMO-D は代わりに、クランプされた成分を持つ対角行列による直交運動量を持つ。
GPT-2モデルの事前訓練実験では,AdamWモデルとMuonモデルと比較してNAMOモデルとNAMO-Dモデルの両方の性能が向上した。
論文 参考訳(メタデータ) (2026-02-19T05:00:39Z) - Delving into Muon and Beyond: Deep Analysis and Extensions [8.297062899157664]
We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
論文 参考訳(メタデータ) (2026-02-04T15:40:47Z) - Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文 参考訳(メタデータ) (2026-02-03T08:15:57Z) - OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases [29.60546958677364]
nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
論文 参考訳(メタデータ) (2026-02-01T08:59:45Z) - UNSO: Unified Newton Schulz Orthogonalization [10.113387496783007]
ニュートン・シュルツ (NS) はムーン多様体とスティーフェル多様体におけるその役割に対する関心が高まっている。
我々は反復構造を統一されたフレームワーク、Unified Newton-Schulz Orthogonalization (UNSO) に統合する。
これらの学習可能な係数は最適化され、安定した収束で優れた性能を達成する。
論文 参考訳(メタデータ) (2026-01-18T17:54:43Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z) - Inertial Quadratic Majorization Minimization with Application to Kernel Regularized Learning [1.0282274843007797]
外部補間(QMME)フレームワークを導入し,その逐次収束特性を確立する。
実効性を示すために,大規模カーネル正規化学習問題にQMMEを適用した。
論文 参考訳(メタデータ) (2025-07-06T05:17:28Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文 参考訳(メタデータ) (2025-02-11T11:48:04Z) - Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal
Attention, and Optimal Transport [18.717832661972896]
新しいアプローチは、思慮深い設計の連続力学と離散力学の相互作用に基づいて、初めて提案される。
方法は多様体の構造を正確に保存するが、一般的に使われる射影や引き抜きを必要としない。
適応学習率への一般化も示されている。
論文 参考訳(メタデータ) (2022-05-27T18:01:45Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。