論文の概要: ROOT: Robust Orthogonalized Optimizer for Neural Network Training
- arxiv url: http://arxiv.org/abs/2511.20626v1
- Date: Tue, 25 Nov 2025 18:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.630291
- Title: ROOT: Robust Orthogonalized Optimizer for Neural Network Training
- Title(参考訳): ROOT: ニューラルネットワークトレーニングのためのロバスト直交最適化器
- Authors: Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang,
- Abstract要約: 大規模言語モデル(LLM)は、特にモデルのスケーリングがインプレクションやトレーニングの不安定性に対する感受性を悪化させるため、依然として重要な課題である。
我々は,特定の行列サイズに合わせた反復によるロバスト性を高める次元ロバスト化手法を開発した。
第2に,有意な方向を保ちながら外周雑音を抑制する最適化ロバスト化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.05662448082334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimization of large language models (LLMs) remains a critical challenge, particularly as model scaling exacerbates sensitivity to algorithmic imprecision and training instability. Recent advances in optimizers have improved convergence efficiency through momentum orthogonalization, but suffer from two key robustness limitations: dimensional fragility in orthogonalization precision and vulnerability to outlier-induced noise. To address these robustness challenges, we introduce ROOT, a Robust Orthogonalized Optimizer that enhances training stability through dual robustness mechanisms. First, we develop a dimension-robust orthogonalization scheme using adaptive Newton iterations with fine-grained coefficients tailored to specific matrix sizes, ensuring consistent precision across diverse architectural configurations. Second, we introduce an optimization-robust framework via proximal optimization that suppresses outlier noise while preserving meaningful gradient directions. Extensive experiments demonstrate that ROOT achieves significantly improved robustness, with faster convergence and superior final performance compared to both Muon and Adam-based optimizers, particularly in noisy and non-convex scenarios. Our work establishes a new paradigm for developing robust and precise optimizers capable of handling the complexities of modern large-scale model training. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/ROOT.
- Abstract(参考訳): 大規模言語モデル(LLM)の最適化は、特にモデルのスケーリングがアルゴリズム的不正確さやトレーニング不安定性に対する感度を悪化させるため、依然として重要な課題である。
近年のオプティマイザの進歩により、運動量直交化による収束効率が向上するが、直交化精度の次元的不安定性と外周誘導雑音の脆弱性という2つの重要な頑健さの限界に悩まされている。
このようなロバスト性問題に対処するため,ロバストオルソゴン化最適化器であるROOTを導入し,双対ロバスト性機構によるトレーニング安定性を向上させる。
まず、特定の行列サイズに合わせて微粒な係数を持つ適応ニュートン反復を用いた次元ロバストな直交化手法を開発し、様々なアーキテクチャ構成で一貫した精度を確保する。
第2に,有意な傾きを保ちながら外周雑音を抑制する近似最適化による最適化ロバストフレームワークを提案する。
広汎な実験により、ROOTは、特にノイズや非凸のシナリオにおいて、MuonとAdamベースのオプティマイザと比較して、より高速な収束と優れた最終性能で、ロバスト性を大幅に向上することを示した。
我々の研究は、現代の大規模モデルトレーニングの複雑さを扱える堅牢で正確なオプティマイザを開発するための新しいパラダイムを確立します。
コードはhttps://github.com/huawei-noah/noah-research/tree/master/ROOTで入手できる。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - A constrained optimization approach to improve robustness of neural networks [1.2338729811609355]
クリーンなデータに対する精度を維持しつつ、敵攻撃に対する堅牢性を向上させるために、ファインチューン事前学習ニューラルネットワークに対する非線形プログラミングに基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-18T18:37:14Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。