Fugu-MT 論文翻訳(概要): Muon Converges under Heavy-Tailed Noise: Nonconvex Hölder-Smooth Empirical Risk Minimization

論文の概要: Muon Converges under Heavy-Tailed Noise: Nonconvex Hölder-Smooth Empirical Risk Minimization

arxiv url: http://arxiv.org/abs/2603.15059v1
Date: Mon, 16 Mar 2026 10:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.006525
Title: Muon Converges under Heavy-Tailed Noise: Nonconvex Hölder-Smooth Empirical Risk Minimization
Title（参考訳）: 重音下でのムーン収束:非凸ヘルダー・スムース経験的リスク最小化
Authors: Hideaki Iiduka,
Abstract要約: Muon は、Stiefel 多様体に勾配を射影することでパラメータ更新を強制する最近の提案である。さらに,ミュオンはミニバッチネスよりも早く収束することを示す。
参考スコア（独自算出の注目度）: 8.579148218325168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Muon is a recently proposed optimizer that enforces orthogonality in parameter updates by projecting gradients onto the Stiefel manifold, leading to stable and efficient training in large-scale deep neural networks. Meanwhile, the previously reported results indicated that stochastic noise in practical machine learning may exhibit heavy-tailed behavior, violating the bounded-variance assumption. In this paper, we consider the problem of minimizing a nonconvex Hölder-smooth empirical risk that works well with the heavy-tailed stochastic noise. We then show that Muon converges to a stationary point of the empirical risk under the boundedness condition accounting for heavy-tailed stochastic noise. In addition, we show that Muon converges faster than mini-batch SGD.
Abstract（参考訳）: Muonは、Stiefel多様体に勾配を投影することでパラメータ更新の直交性を強制し、大規模ディープニューラルネットワークにおける安定かつ効率的なトレーニングを実現する、最近提案されたオプティマイザである。一方,先程報告した結果から,実践的機械学習における確率ノイズは重み付き行動を示し,有界分散仮定に反する可能性が示唆された。本稿では,重み付き確率雑音によく対応する非凸ヘルダー・スムース経験的リスクを最小化することの問題点を考察する。次に, 重み付き確率雑音を考慮した有界条件下では, Muon は経験的リスクの定常点に収束することを示す。さらに,MuonはミニバッチSGDよりも高速に収束することを示す。

関連論文リスト

Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文参考訳（メタデータ） (2025-12-18T14:38:39Z)
Optimal High-probability Convergence of Nonlinear SGD under Heavy-tailed Noise via Symmetrization [50.49466204159458]
雑音対称性に基づく2つの新しい推定器を提案する。よりシャープな分析と改善されたレートを提供します。モーメントと対称雑音を仮定する作業と比較して、よりシャープな解析と改善率を提供する。
論文参考訳（メタデータ） (2025-07-12T00:31:13Z)
Label Noise: Ignorance Is Bliss [20.341746708177055]
マルチクラス、インスタンス依存ラベルノイズ下で学習するための新しい理論的枠組みを確立する。本研究は,ラベルノイズを無視しながら経験的リスクを最小限に抑える,単純なEmphnoise Ignorant Empirical Risk Minimization(NI-ERM)の原則を支持する。
論文参考訳（メタデータ） (2024-10-31T17:03:25Z)
(Accelerated) Noise-adaptive Stochastic Heavy-Ball Momentum [7.095058159492494]
ヘビーボール運動量(SHB)は機械学習モデルのトレーニングに一般的に用いられ、勾配よりも経験的な結果を提供することが多い。 SHBは, 条件値 $kappa2$ の閾値 $b*$ よりも小さい場合に, 高速化されたミニバッチサイズが得られることを示す。
論文参考訳（メタデータ） (2024-01-12T18:17:28Z)
Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise [16.12834917344859]
重球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能するはずだと広く推測されている。重球運動量は, SGDの偏差項の加速収束率を$tildemathcalO(sqrtkappa)$で達成し, ほぼ最適収束率を達成できることを示した。つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定で有用である。
論文参考訳（メタデータ） (2023-12-22T09:58:39Z)
May the Noise be with you: Adversarial Training without Adversarial Examples [3.4673556247932225]
我々は、敵の訓練を受けずに敵の訓練を受けたモデルを得ることができるかという疑問を調査する。提案手法は,訓練時にNNモデルの層にガウス雑音を埋め込むことによって固有性を取り入れる。我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献し、敵の訓練と経験的に類似した堅牢性を持つ。
論文参考訳（メタデータ） (2023-12-12T08:22:28Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文参考訳（メタデータ） (2023-02-19T15:24:37Z)
Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは特に広まりました本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2022-09-08T10:46:05Z)
Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文参考訳（メタデータ） (2020-06-15T18:31:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。