論文の概要: The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks
- arxiv url: http://arxiv.org/abs/2602.16340v1
- Date: Wed, 18 Feb 2026 10:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.57639
- Title: The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks
- Title(参考訳): 平滑な均質ニューラルネットワークにおけるAdamとMuonの入射バイアス
- Authors: Eitan Gronich, Gal Vardi,
- Abstract要約: 運動量に基づくモデルの暗黙バイアスについて検討する。
滑らかな等質モデルでは、運動量急降下アルゴリズムが対応するマージン問題のKKT点に偏りがあることが示される。
- 参考スコア(独自算出の注目度): 22.08387089416152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the implicit bias of momentum-based optimizers on homogeneous models. We first extend existing results on the implicit bias of steepest descent in homogeneous models to normalized steepest descent with an optional learning rate schedule. We then show that for smooth homogeneous models, momentum steepest descent algorithms like Muon (spectral norm), MomentumGD ($\ell_2$ norm), and Signum ($\ell_\infty$ norm) are approximate steepest descent trajectories under a decaying learning rate schedule, proving that these algorithms too have a bias towards KKT points of the corresponding margin maximization problem. We extend the analysis to Adam (without the stability constant), which maximizes the $\ell_\infty$ margin, and to Muon-Signum and Muon-Adam, which maximize a hybrid norm. Our experiments corroborate the theory and show that the identity of the margin maximized depends on the choice of optimizer. Overall, our results extend earlier lines of work on steepest descent in homogeneous models and momentum-based optimizers in linear models.
- Abstract(参考訳): 運動量に基づくオプティマイザの同質モデルに対する暗黙バイアスについて検討する。
まず、同種モデルにおける急降下の暗黙バイアスに関する既存の結果を、任意の学習率スケジュールで正規化された急降下に拡張する。
次に、滑らかな等質モデルに対して、Muon(スペクトルノルム)、MomentumGD(英語版)(英語版)、Signum(英語版)(英語版)(英語版)は減衰する学習率のスケジュールの下で最も急勾配の軌道を近似し、これらのアルゴリズムも対応するマージン最大化問題のKKT点に偏りがあることを証明した。
我々は解析をAdam(安定性定数なしで)に拡張し、これは$\ell_\infty$マージンを最大とし、Muon-Signum と Muon-Adam はハイブリッドノルムを最大にする。
我々の実験は、この理論を裏付け、マージンのアイデンティティが最大になったことを示すのは、オプティマイザの選択に依存する。
全体として、この結果は、線形モデルにおける等質モデルと運動量に基づく最適化における最も急降下に関する初期の研究線を延長する。
関連論文リスト
- Adaptive Optimization via Momentum on Variance-Normalized Gradients [21.17954226393917]
MVN-Gradは、分散に基づく正規化と正規化後の運動量という2つの相補的なアイデアを組み合わせることにより、安定性と性能を向上させる。
CIFAR-100イメージ分類とGPTスタイルの言語モデリングベンチマーク、MVN-GradマッチやAdam、AdaBelief、LaPropPropよりも優れている。
論文 参考訳(メタデータ) (2026-02-10T19:00:25Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Multi-Step Consistency Models: Fast Generation with Theoretical Guarantees [15.366598179769918]
所定時刻の入力を逆軌道に沿った任意の点にマッピングできる整合モデルの理論的解析を行う。
Oleft(logleft(fracdvarepsilonright) $ iterations for a constant step size。
我々は,スムーズかつ非スムーズな設定でも,小さな離散化ステップを用いて,正確な学習が実現可能であると結論付けた。
論文 参考訳(メタデータ) (2025-05-02T06:50:46Z) - Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data [33.082961718280245]
p-ノルム正規化急勾配 (NSD) と運動量急勾配 (NMD) に対する暗黙的最適化バイアスの完全な特徴付けを行う。
これらのアルゴリズムは行列の p-ノルムに関してマージンを最大化する解に収束することを示した。
論文 参考訳(メタデータ) (2025-02-07T05:09:32Z) - Survey Descent: A Multipoint Generalization of Gradient Descent for
Nonsmooth Optimization [0.0]
局所最適化のための勾配降下繰り返しの一般化を提案する。
目的自体が滑らかであるときに線形収束を証明し、実験によりより一般的な現象が示唆される。
論文 参考訳(メタデータ) (2021-11-30T18:28:17Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。