論文の概要: Better LMO-based Momentum Methods with Second-Order Information
- arxiv url: http://arxiv.org/abs/2512.13227v1
- Date: Mon, 15 Dec 2025 11:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.641932
- Title: Better LMO-based Momentum Methods with Second-Order Information
- Title(参考訳): 2次情報を用いたLMOに基づくモーメント法の改良
- Authors: Sarit Khirirat, Abdurakhmon Sadiev, Yury Demidovich, Peter Richtárik,
- Abstract要約: Hessian-Corrected Momentum (HCM) は運動量収束率の向上を目的としている。
Hessian-Corrected Momentum は問題の幾何学に適応し、従来の運動量よりも速い速度を達成することができる。
我々はHCMを統合することでLinear Minimization Oracleフレームワークを拡張し、緩和された滑らかさと任意の規範設定の下で収束保証を提供する。
- 参考スコア(独自算出の注目度): 48.580700968416444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of momentum in stochastic optimization algorithms has shown empirical success across a range of machine learning tasks. Recently, a new class of stochastic momentum algorithms has emerged within the Linear Minimization Oracle (LMO) framework--leading to state-of-the-art methods, such as Muon, Scion, and Gluon, that effectively solve deep neural network training problems. However, traditional stochastic momentum methods offer convergence guarantees no better than the ${O}(1/K^{1/4})$ rate. While several approaches--such as Hessian-Corrected Momentum (HCM)--have aimed to improve this rate, their theoretical results are generally restricted to the Euclidean norm setting. This limitation hinders their applicability in problems, where arbitrary norms are often required. In this paper, we extend the LMO-based framework by integrating HCM, and provide convergence guarantees under relaxed smoothness and arbitrary norm settings. We establish improved convergence rates of ${O}(1/K^{1/3})$ for HCM, which can adapt to the geometry of the problem and achieve a faster rate than traditional momentum. Experimental results on training Multi-Layer Perceptrons (MLPs) and Long Short-Term Memory (LSTM) networks verify our theoretical observations.
- Abstract(参考訳): 確率最適化アルゴリズムにおける運動量の利用は、様々な機械学習タスクで経験的な成功を示している。
最近、Linear Minimization Oracle(LMO)フレームワークの中に新しい確率運動量アルゴリズムが出現し、Muon、Scion、Gluonといった最先端の手法に導かれ、ディープニューラルネットワークのトレーニング問題を効果的に解決している。
しかし、伝統的な確率運動量法は${O}(1/K^{1/4})$レートに劣らない収束を保証する。
Hessian-Corrected Momentum (HCM) のようないくつかのアプローチは、この速度を改善することを目的としていたが、理論的な結果は一般的にユークリッドノルム設定に制限されている。
この制限は、任意ノルムがしばしば必要となる問題における適用性を妨げている。
本稿では,HCMを統合することでLMOベースのフレームワークを拡張し,緩和された滑らかさと任意のノルム設定の下での収束保証を提供する。
我々は、HCMに対する${O}(1/K^{1/3})$の改善収束率を確立し、問題の幾何学に適応し、従来の運動量よりも速い速度を達成することができる。
MLP(Multi-Layer Perceptrons)およびLSTM(Long Short-Term Memory)ネットワークのトレーニング実験により,我々の理論観測が検証された。
関連論文リスト
- Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。
Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。
このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文 参考訳(メタデータ) (2024-05-28T14:28:28Z) - Neural-Kernel Conditional Mean Embeddings [26.862984140099837]
カーネル条件付き平均埋め込み(CME)は条件分布を表す強力なフレームワークを提供するが、スケーラビリティと課題に直面することが多い。
本稿では,これらの課題に対処するために,ディープラーニングとCMEの強みを効果的に組み合わせた新しい手法を提案する。
条件付き密度推定タスクでは、NN-CMEハイブリッドは競合性能を達成し、しばしば既存のディープラーニング手法を上回ります。
論文 参考訳(メタデータ) (2024-03-16T08:51:02Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。