論文の概要: TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers
- arxiv url: http://arxiv.org/abs/2602.13498v1
- Date: Fri, 13 Feb 2026 22:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.117306
- Title: TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers
- Title(参考訳): TrasMuon: 直交モーメント最適化のための信頼度適応スケーリング
- Authors: Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong,
- Abstract要約: TrasMuon は (i) グローバル RMS キャリブレーションと (ii) エネルギーベースの信頼領域クリッピングにより、マグニチュードを安定化させながら、ムオンの近距離幾何学を保存する。
適応スケーリングの再導入により最適化効率は向上するが,高エネルギーのアウトレイラにより不安定性が向上することが実証された。
視覚と言語モデルに関する実証実験は、TresMuonがベースラインよりも早く収束することを示した。
- 参考スコア(独自算出の注目度): 24.534939825452884
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Muon-style optimizers leverage Newton-Schulz (NS) iterations to orthogonalize updates, yielding update geometries that often outperform Adam-series methods. However, this orthogonalization discards magnitude information, rendering training sensitive to step-size hyperparameters and vulnerable to high-energy bursts. To mitigate this, we introduce TrasMuon (\textbf{T}rust \textbf{R}egion \textbf{A}daptive \textbf{S}caling \textbf{Muon}). TrasMuon preserves the near-isometric geometry of Muon while stabilizing magnitudes through (i) global RMS calibration and (ii) energy-based trust-region clipping. We demonstrate that while reintroducing adaptive scaling improves optimization efficiency, it typically exacerbates instability due to high-energy outliers. TrasMuon addresses this by defining a trust region based on relative energy ratios, confining updates to a stable zone. Empirical experiments on vision and language models demonstrate that TrasMuon converges faster than baselines. Furthermore, experiments without warmup stages confirm TrasMuon's superior stability and robustness.
- Abstract(参考訳): MuonスタイルのオプティマイザはNewton-Schulz (NS) のイテレーションを利用して更新を直交させ、しばしばAdam-Seriesメソッドよりも優れた更新ジオメトリを得る。
しかし、この直交化は大きさ情報を捨て、ステップサイズのハイパーパラメータに敏感なレンダリングトレーニングを行い、高エネルギーバーストに弱い。
これを緩和するために、TrusMuon (\textbf{T}rust \textbf{R}egion \textbf{A}daptive \textbf{S}caling \textbf{Muon})を紹介します。
TrasMuonは、マグニチュードを安定化しながらムオンの近距離幾何学を保存する
一 グローバルRMS校正及び校正
(II)エネルギーベースの信頼領域クリッピング。
適応スケーリングの再導入により最適化効率は向上するが,高エネルギーのアウトレイラにより不安定性が向上することが実証された。
TrasMuonは、相対エネルギー比に基づいて信頼領域を定義し、安定ゾーンへの更新を精算することでこの問題に対処する。
視覚と言語モデルに関する実証実験は、TresMuonがベースラインよりも早く収束することを示した。
さらに、ウォームアップ段階のない実験では、トラスムーンの優れた安定性と堅牢性が確認されている。
関連論文リスト
- Delving into Muon and Beyond: Deep Analysis and Extensions [8.297062899157664]
We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
論文 参考訳(メタデータ) (2026-02-04T15:40:47Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。