論文の概要: Nora: Normalized Orthogonal Row Alignment for Scalable Matrix Optimizer
- arxiv url: http://arxiv.org/abs/2605.03769v1
- Date: Tue, 05 May 2026 14:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.959246
- Title: Nora: Normalized Orthogonal Row Alignment for Scalable Matrix Optimizer
- Title(参考訳): Nora: スケーラブルマトリックス最適化のための正規化直交路アライメント
- Authors: Jinghui Yuan, Jiaxuan Zou, Shuo Wang, Yong Liu, Feiping Nie,
- Abstract要約: 大規模言語モデル(LLM)を学習するためのマトリックスベースのアプローチは、大きな可能性を実証している。
効率性、最適化を加速するためにミューオンのようなプレコンディショニングを達成すること、安定性、ニューラルネットワークの本質に厳密に固執すること、計算オーバーヘッドを最小化すること、の3つのコアデシダータを満たす必要がある。
我々は,3つの要件をすべて厳格に満たし,大規模トレーニングに非常に有望なNoraを提案する。
- 参考スコア(独自算出の注目度): 52.9566744833465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix-based optimizers have demonstrated immense potential in training Large Language Models (LLMs), however, designing an ideal optimizer remains a formidable challenge. A superior optimizer must satisfy three core desiderata: efficiency, achieving Muon-like preconditioning to accelerate optimization; stability, strictly adhering to the scale-invariance inherent in neural networks; and speed, minimizing computational overhead. While existing methods address these aspects to varying degrees, they often fail to unify them, either incurring prohibitive computational costs like Muon, or allowing radial jitters that compromise stability like RMNP. To bridge this gap, we propose Nora, an optimizer that rigorously satisfies all three requirements. Nora achieves training stability by explicitly stabilizing weight norms and angular velocities through row-wise momentum projection onto the orthogonal complement of the weights. Simultaneously, by leveraging the block-diagonal dominance of the Transformer Hessian, Nora effectively approximates structured preconditioning while maintaining an optimal computational complexity of $\mathcal{O}(mn)$. Furthermore, we prove that Nora is a scalable optimizer and establish its corresponding scaling theorems. With a streamlined implementation requiring only two lines of code, our preliminary experiments validate Nora as an efficient and highly promising optimizer for large-scale training.
- Abstract(参考訳): マトリックスベースのオプティマイザは、Large Language Models (LLMs) のトレーニングにおいて大きな可能性を実証してきたが、理想的なオプティマイザを設計することは、依然として非常に難しい課題である。
優れたオプティマイザは、3つのコアデシダータを満たす必要がある:効率性、最適化を加速するためにミュオンのようなプレコンディショニングを達成すること、安定性、ニューラルネットワークに固有のスケール不変性に厳密に固執すること、計算オーバーヘッドを最小化すること。
既存の手法はこれらの側面を様々な程度に扱うが、Muonのような違法な計算コストを発生させるか、RMNPのような安定性を損なう放射ジッタを許すか、それらを統一することができないことが多い。
このギャップを埋めるため、我々は3つの要件をすべて厳格に満たす最適化ツールであるNoraを提案する。
ノラは、重みの直交補体への行ワイド運動量投影を通じて、重みノルムと角速度を明示的に安定化することで、トレーニング安定性を達成する。
同時に、Transformer Hessian のブロック対角線優位性を活用することで、Nora は構造化プレコンディショニングを効果的に近似し、最適な計算複雑性を $\mathcal{O}(mn)$ に維持する。
さらに、ノラがスケーラブルな最適化器であることを証明し、対応するスケーリング定理を確立する。
2行のコードしか必要としない合理化実装で、大規模なトレーニングのための効率的かつ有望な最適化ツールとして、Noraを検証する予備実験を行った。
関連論文リスト
- Diff3R: Feed-forward 3D Gaussian Splatting with Uncertainty-aware Differentiable Optimization [76.38917994186733]
Diff3Rはフィードフォワード予測とテストタイム最適化をブリッジする新しいフレームワークである。
フィードフォワード3DGSアーキテクチャにシームレスに統合でき、ポーズギヴン法とポーズフリー法の両方に対応できることを示す。
論文 参考訳(メタデータ) (2026-04-01T15:40:20Z) - NOVAK: Unified adaptive optimizer for deep neural networks [0.0]
NOVAKは、適応モーメント推定、修正学習率スケジューリング、デカップリングウェイト正規化、ネステロフ運動量の複数変種、ルックアヘッド同期を統一されたパフォーマンス指向のフレームワークに統合する勾配に基づく最適化アルゴリズムである。
論文 参考訳(メタデータ) (2026-01-11T13:03:57Z) - ROOT: Robust Orthogonalized Optimizer for Neural Network Training [47.05662448082334]
大規模言語モデル(LLM)は、特にモデルのスケーリングがインプレクションやトレーニングの不安定性に対する感受性を悪化させるため、依然として重要な課題である。
我々は,特定の行列サイズに合わせた反復によるロバスト性を高める次元ロバスト化手法を開発した。
第2に,有意な方向を保ちながら外周雑音を抑制する最適化ロバスト化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:48:05Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - AdaFisher: Adaptive Second Order Optimization via Fisher Information [22.851200800265914]
第一次最適化法は、現在、深層ニューラルネットワーク(DNN)のトレーニングにおいて主流となっている。Adamのような企業は、トレーニング中に勾配の行列プレコンディショニングを利用することで、限られた曲率情報を取り入れている。
広範に使われている2階最適化アルゴリズムは、AdamやSGDのような一階最適化アルゴリズムよりも優れた収束特性を示す。
本稿では,適応勾配プレコンディショニングのためのフィッシャー情報行列の角角ブロッククロネッカー近似を利用する適応二階法であるEmphAdaFisherを提案する。
論文 参考訳(メタデータ) (2024-05-26T01:25:02Z) - Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal
Attention, and Optimal Transport [18.717832661972896]
新しいアプローチは、思慮深い設計の連続力学と離散力学の相互作用に基づいて、初めて提案される。
方法は多様体の構造を正確に保存するが、一般的に使われる射影や引き抜きを必要としない。
適応学習率への一般化も示されている。
論文 参考訳(メタデータ) (2022-05-27T18:01:45Z) - Steepest Descent Neural Architecture Optimization: Escaping Local
Optimum with Signed Neural Splitting [60.97465664419395]
我々は、局所最適性問題に対処する分割降下フレームワークの顕著で驚くべき拡張を開発する。
分割時の正と負の両方の重みを単純に許すことで、S2Dにおける分裂安定性の出現を排除できる。
我々は,CIFAR-100, ImageNet, ModelNet40 といった,S2D などの先進的なニューラルネットワークの精度とエネルギー効率の学習方法よりも優れている,様々な挑戦的なベンチマーク上で,本手法を検証する。
論文 参考訳(メタデータ) (2020-03-23T17:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。