論文の概要: Sign-Based Optimizers Are Effective Under Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2602.07425v1
- Date: Sat, 07 Feb 2026 07:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.614807
- Title: Sign-Based Optimizers Are Effective Under Heavy-Tailed Noise
- Title(参考訳): 重音下でのサインベース最適化の有効性
- Authors: Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang,
- Abstract要約: 最近、LionやMuonのような符号ベースの最適化アルゴリズムはAdamWよりも優れた経験的性能を示している。
本稿では,重み付き勾配雑音のレンズを通して理論と実践のギャップを埋めることを目的としている。
- 参考スコア(独自算出の注目度): 43.39716211464324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While adaptive gradient methods are the workhorse of modern machine learning, sign-based optimization algorithms such as Lion and Muon have recently demonstrated superior empirical performance over AdamW in training large language models (LLM). However, a theoretical understanding of why sign-based updates outperform variance-adapted methods remains elusive. In this paper, we aim to bridge the gap between theory and practice through the lens of heavy-tailed gradient noise, a phenomenon frequently observed in language modeling tasks. Theoretically, we introduce a novel generalized heavy-tailed noise condition that captures the behavior of LLMs more accurately than standard finite variance assumptions. Under this noise model, we establish sharp convergence rates of SignSGD and Lion for generalized smooth function classes, matching or surpassing previous best-known bounds. Furthermore, we extend our analysis to Muon and Muonlight, providing what is, to our knowledge, the first rigorous analysis of matrix optimization under heavy-tailed stochasticity. These results offer a strong theoretical justification for the empirical superiority of sign-based optimizers, showcasing that they are naturally suited to handle the noisy gradients associated with heavy tails. Empirically, LLM pretraining experiments validate our theoretical insights and confirm that our proposed noise models are well-aligned with practice.
- Abstract(参考訳): 適応勾配法は現代の機械学習の成果である一方、LionやMuonのような符号ベースの最適化アルゴリズムは、大規模言語モデル(LLM)のトレーニングにおいてAdamWよりも優れた経験的性能を示している。
しかし、なぜ符号ベースの更新が分散適応法より優れているのかという理論的理解はいまだ解明されていない。
本稿では,重み付き勾配雑音のレンズを通して理論と実践のギャップを埋めることを目的としており,これは言語モデリングタスクで頻繁に見られる現象である。
理論的には, LLMの挙動を標準有限分散仮定よりも正確に捉えた, 一般化された重み付き雑音条件を導入する。
このノイズモデルの下では、一般化された滑らかな関数クラスに対して、SignSGD と Lion の鋭い収束率を確立する。
さらに、我々は解析をMuonとMuonlightに拡張し、重尾確率性の下での行列最適化の厳密な分析を私たちの知識に提供した。
これらの結果は、符号ベースのオプティマイザの経験的優位性に対して強い理論的正当性を与え、重い尾に付随する雑音的な勾配を扱うのに自然に適していることを示した。
実験的に,LLM事前学習実験は我々の理論的洞察を検証し,提案したノイズモデルが実践と整合していることを確認する。
関連論文リスト
- How Well Can Preference Optimization Generalize Under Noisy Feedback? [7.374590753074647]
優先最適化は、人間のフィードバックに基づいて、好ましくない応答と好ましくない応答を区別するモデルを訓練する。
既存の研究の多くはノイズのないフィードバックを前提としているが、これは人間の判断に固有の誤りや矛盾のため非現実的である。
本稿では,雑音フィードバックが優先最適化に与える影響を考察し,これらの条件下での一般化保証を提供する。
論文 参考訳(メタデータ) (2025-10-01T20:56:31Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Heavy-tailed denoising score matching [5.371337604556311]
ランゲヴィン力学における複数のノイズレベルを連続的に初期化する反復的雑音スケーリングアルゴリズムを開発した。
実用面では、重み付きDSMを用いることで、スコア推定、制御可能なサンプリング収束、不均衡データセットに対するよりバランスのない非条件生成性能が改善される。
論文 参考訳(メタデータ) (2021-12-17T22:04:55Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。