論文の概要: Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts
- arxiv url: http://arxiv.org/abs/2310.05898v5
- Date: Fri, 19 Apr 2024 09:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:16:45.854535
- Title: Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts
- Title(参考訳): Lyapunovの予測通り、ライオンは秘密裏に最適化を厳格化
- Authors: Lizhang Chen, Bo Liu, Kaizhao Liang, Qiang Liu,
- Abstract要約: Lion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。
これはAdamWと同等か好意的に機能するが、メモリ効率は向上する。
我々の分析は,ライオン更新のための新しいリャプノフ関数の開発によって可能となった。
- 参考スコア(独自算出の注目度): 8.393403749426097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lion (Evolved Sign Momentum), a new optimizer discovered through program search, has shown promising results in training large AI models. It performs comparably or favorably to AdamW but with greater memory efficiency. As we can expect from the results of a random search program, Lion incorporates elements from several existing algorithms, including signed momentum, decoupled weight decay, Polak, and Nesterov momentum, but does not fit into any existing category of theoretically grounded optimizers. Thus, even though Lion appears to perform well as a general-purpose optimizer for a wide range of tasks, its theoretical basis remains uncertain. This lack of theoretical clarity limits opportunities to further enhance and expand Lion's efficacy. This work aims to demystify Lion. Based on both continuous-time and discrete-time analysis, we demonstrate that Lion is a theoretically novel and principled approach for minimizing a general loss function $f(x)$ while enforcing a bound constraint $\|x\|_\infty \leq 1/\lambda$. Lion achieves this through the incorporation of decoupled weight decay, where $\lambda$ represents the weight decay coefficient. Our analysis is made possible by the development of a new Lyapunov function for the Lion updates. It applies to a broader family of Lion-$\kappa$ algorithms, where the $\text{sign}(\cdot)$ operator in Lion is replaced by the subgradient of a convex function $\kappa$, leading to the solution of a general composite optimization problem of $\min_x f(x) + \kappa^*(x)$. Our findings provide valuable insights into the dynamics of Lion and pave the way for further improvements and extensions of Lion-related algorithms.
- Abstract(参考訳): プログラム検索を通じて発見された新しいオプティマイザであるLion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。
これはAdamWと同等か好意的に機能するが、メモリ効率は向上する。
ランダムな探索プログラムの結果から期待できるように、Lionは符号付き運動量、分離されたウェイト崩壊、ポーラク、ネステロフ運動量など、いくつかの既存のアルゴリズムの要素を取り入れているが、理論的に基底付けられたオプティマイザの既存のカテゴリには適合しない。
したがって、ライオンは幅広いタスクに対して汎用最適化器としてうまく機能しているように見えるが、その理論的基礎はいまだに不明である。
この理論的な明快さの欠如は、ライオンの有効性をさらに強化し拡張する機会を制限している。
この作品はライオンを軽蔑することを目的としている。
連続時間解析と離散時間解析の両方に基づき、Lion は一般損失関数 $f(x)$ を最小化し、有界制約 $\|x\|_\infty \leq 1/\lambda$ を強制する理論的および原理的アプローチであることを示した。
ライオンはこれをデカップリングウェイト崩壊の包含によって達成し、$\lambda$はウェイト崩壊係数を表す。
我々の分析は,ライオン更新のための新しいリャプノフ関数の開発によって可能となった。
これは、Lion-$\kappa$アルゴリズムのより広範なファミリーに適用され、Lionの$\text{sign}(\cdot)$演算子は凸関数 $\kappa$ の次数に置き換えられ、一般的な合成最適化問題である $\min_x f(x) + \kappa^*(x)$ の解となる。
我々の発見は、ライオンのダイナミクスに関する貴重な洞察を与え、ライオン関連アルゴリズムのさらなる改良と拡張の道を開く。
関連論文リスト
- Lion Cub: Minimizing Communication Overhead in Distributed Lion [9.360174471655977]
通信オーバーヘッドは、分散ディープラーニング、特に遅いイーサネット相互接続において重要な課題である。
分散学習に不可欠な3つの要因をLionを用いて分析し、コミュニケーション手法の最適化、効果的な量子化手法の同定、モーメント同期の必要性を評価する。
これはLionと比較して、エンドツーエンドのトレーニングで最大5倍のスピードアップを可能にします。
論文 参考訳(メタデータ) (2024-11-25T15:08:24Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Communication Efficient Distributed Training with Distributed Lion [25.39333175634972]
分散トレーニング環境に対するLionの革新的な適応であるDistributed Lionを紹介します。
視覚と言語の問題の両方で、タスク、ワーカ数、バッチサイズにまたがる堅牢性を示します。
論文 参考訳(メタデータ) (2024-03-30T18:07:29Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。
提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。
LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-02-13T20:27:30Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - The Trimmed Lasso: Sparse Recovery Guarantees and Practical Optimization
by the Generalized Soft-Min Penalty [14.85926834924458]
本稿では,古典ラッソと一般パターンを補間するスパース近似あるいは最良部分集合の解法を提案する。
我々は、一般的なソフトミンペナルティを計算するためにスパースタイムを導出する。
論文 参考訳(メタデータ) (2020-05-18T18:43:06Z) - A Newton Frank-Wolfe Method for Constrained Self-Concordant Minimization [60.90222082871258]
本稿では,制約集合上の線形最小化オラクル(LMO)を用いて,制約付き自己調和最小化問題のクラスをカラフルに解く方法を示す。
L-smoothの場合、我々の手法のLMO呼び出し数はFrank-Wolfe法とほぼ同じであることを示す。
論文 参考訳(メタデータ) (2020-02-17T15:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。