Fugu-MT 論文翻訳(概要): Lions and Muons: Optimization via Stochastic Frank-Wolfe

論文の概要: Lions and Muons: Optimization via Stochastic Frank-Wolfe

arxiv url: http://arxiv.org/abs/2506.04192v1
Date: Wed, 04 Jun 2025 17:39:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.496242
Title: Lions and Muons: Optimization via Stochastic Frank-Wolfe
Title（参考訳）: Lions and Muons: Stochastic Frank-Wolfeによる最適化
Authors: Maria-Eleni Sfyraki, Jun-Kun Wang,
Abstract要約: 重量減衰を持つライオンとムオンは、フランク=ウルフの特別な例と見なすことができる。また、このギャップへの収束はノルム制約の下での元の問題のKKT点への収束を意味する。
参考スコア（独自算出の注目度）: 11.287482309003334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic Frank-Wolfe is a classical optimization method for solving constrained optimization problems. On the other hand, recent optimizers such as Lion and Muon have gained quite significant popularity in deep learning. In this work, we provide a unifying perspective by interpreting these seemingly disparate methods through the lens of Stochastic Frank-Wolfe. Specifically, we show that Lion and Muon with weight decay can be viewed as special instances of a Stochastic Frank-Wolfe, and we establish their convergence guarantees in terms of the Frank-Wolfe gap, a standard stationarity measure in non-convex optimization for Frank-Wolfe methods. We further find that convergence to this gap implies convergence to a KKT point of the original problem under a norm constraint for Lion and Muon. Moreover, motivated by recent empirical findings that stochastic gradients in modern machine learning tasks often exhibit heavy-tailed distributions, we extend Stochastic Frank-Wolfe to settings with heavy-tailed noise by developing two robust variants with strong theoretical guarantees, which in turn yields new variants of Lion and Muon.
Abstract（参考訳）: Stochastic Frank-Wolfe は制約付き最適化問題を解くための古典的な最適化手法である。一方、LionやMuonといった最近のオプティマイザは、ディープラーニングでかなりの人気を集めている。本研究では、Stochastic Frank-Wolfe のレンズを通して、これらの異なるように見える手法を解釈することによって統一的な視点を提供する。具体的には、重量減衰を持つライオンとムオンが確率的フランク=ウルフの特別な例と見なせることを示し、フランク=ウルフ法における非凸最適化における標準定常度尺度であるフランク=ウルフギャップの観点からそれらの収束保証を確立する。さらに、このギャップへの収束は、ライオンとムーンのノルム制約の下で元の問題のKKT点への収束を意味することが分かる。さらに、現代の機械学習タスクにおける確率勾配は、しばしば重み付き分布を示すという最近の経験的な発見に動機付けられ、Stochastic Frank-Wolfe を強い理論的保証を持つ2つの頑健な変種を開発して、重み付き雑音のある設定に拡張し、その結果、ライオンとムーンの新しい変種が得られる。

関連論文リスト

Revisiting Convergence: Shuffling Complexity Beyond Lipschitz Smoothness [50.78508362183774]
シャッフル型勾配法はその単純さと迅速な経験的性能のために実践的に好まれる。リプシッツ条件は一般的な機械学習スキームでは満たされないことが多い。
論文参考訳（メタデータ） (2025-07-11T15:36:48Z)
Beyond Short Steps in Frank-Wolfe Algorithms [25.808224336342683]
本稿では,関数のスムーズさを従来のショートステップを超えて活用することで,フランク・ウルフアルゴリズムを強化する新しい手法を提案する。楽観的なフレームワークを用いた新しいフランク・ウルフアルゴリズムを提案し、原始双対収束証明を提供する。
論文参考訳（メタデータ） (2025-01-30T21:52:45Z)
Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features [65.64276393443346]
Frank-Wolfe (FW) 法は、構造化制約による最適化問題の解法として一般的な手法である。有限サム勾配の最小化のためのアルゴリズムの2つの新しい変種を示す。
論文参考訳（メタデータ） (2023-04-23T20:05:09Z)
A Multistep Frank-Wolfe Method [2.806911268410107]
フランク=ウルフ法におけるジグザグ現象を離散化の成果物として検討した。多重ステップのフランク・ウルフ変種は、トラニケート誤差が$O(Deltap)$として崩壊し、$p$はメソッドの順序である。
論文参考訳（メタデータ） (2022-10-14T21:12:01Z)
Variational Refinement for Importance Sampling Using the Forward Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文参考訳（メタデータ） (2021-06-30T11:00:24Z)
Scalable Frank-Wolfe on Generalized Self-concordant Functions via Simple Steps [66.88729048402082]
一般化自己一致は、多くの学習問題の目的関数に存在する重要な特性である。検討対象の領域が一様凸あるいは多面体である場合など,様々な症例に対する収束率の改善を示す。
論文参考訳（メタデータ） (2021-05-28T15:26:36Z)
Revisiting Frank-Wolfe for Polytopes: Strict Complementarity and Sparsity [19.24470467199451]
フランク=ウルフのアルゴリズムは最適面の次元にのみ依存する速度で線形に収束することを示す。ノイズに対する最適解の疎結合性を示すことを証明して、厳密な相補性を動機づける。
論文参考訳（メタデータ） (2020-05-31T16:48:10Z)
A Newton Frank-Wolfe Method for Constrained Self-Concordant Minimization [60.90222082871258]
本稿では,制約集合上の線形最小化オラクル(LMO)を用いて,制約付き自己調和最小化問題のクラスをカラフルに解く方法を示す。 L-smoothの場合、我々の手法のLMO呼び出し数はFrank-Wolfe法とほぼ同じであることを示す。
論文参考訳（メタデータ） (2020-02-17T15:28:31Z)
Naive Feature Selection: a Nearly Tight Convex Relaxation for Sparse Naive Bayes [51.55826927508311]
そこで本稿では,特徴選択に使用可能なnaive Bayesのスパースバージョンを提案する。余剰特徴の余剰寄与が減少するにつれて凸緩和境界が厳密になることを示す。二項スパースモデルと多項スパースモデルの両方は、問題サイズにおいてほぼ線形な時間で解決可能である。
論文参考訳（メタデータ） (2019-05-23T19:30:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。