論文の概要: Provable Acceleration of Heavy Ball beyond Quadratics for a Class of
Polyak-\L{}ojasiewicz Functions when the Non-Convexity is Averaged-Out
- arxiv url: http://arxiv.org/abs/2206.11872v1
- Date: Wed, 22 Jun 2022 17:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 14:31:32.829115
- Title: Provable Acceleration of Heavy Ball beyond Quadratics for a Class of
Polyak-\L{}ojasiewicz Functions when the Non-Convexity is Averaged-Out
- Title(参考訳): 非凸が平均外であるときの多孔体-L{}ojasiewicz関数に対する準数値を超えた重ボールの確率的加速
- Authors: Jun-Kun Wang and Chi-Heng Lin and Andre Wibisono and Bin Hu
- Abstract要約: 現在、ヘビーボール(HB)は非勾配最適化において最も一般的な運動量法の一つである。
本研究では,2次数を超える加速度を示す新しい手法を開発した。
以上の結果から,HBによる証明可能な加速を達成できるPL(Polyak-Lojasiewicz)問題が同定された。
- 参考スコア(独自算出の注目度): 18.43226092985952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heavy Ball (HB) nowadays is one of the most popular momentum methods in
non-convex optimization. It has been widely observed that incorporating the
Heavy Ball dynamic in gradient-based methods accelerates the training process
of modern machine learning models. However, the progress on establishing its
theoretical foundation of acceleration is apparently far behind its empirical
success. Existing provable acceleration results are of the quadratic or
close-to-quadratic functions, as the current techniques of showing HB's
acceleration are limited to the case when the Hessian is fixed. In this work,
we develop some new techniques that help show acceleration beyond quadratics,
which is achieved by analyzing how the change of the Hessian at two consecutive
time points affects the convergence speed. Based on our technical results, a
class of Polyak-\L{}ojasiewicz (PL) optimization problems for which provable
acceleration can be achieved via HB is identified. Moreover, our analysis
demonstrates a benefit of adaptively setting the momentum parameter.
- Abstract(参考訳): 現在、ヘビーボール(HB)は非凸最適化において最も一般的な運動量法の一つである。
勾配に基づく手法にヘビーボール力学を取り入れることで、現代の機械学習モデルのトレーニングプロセスが加速することが広く観測されている。
しかし、加速の理論的基盤を確立するという進歩は、その実証的な成功よりもはるかに遅れている。
既存の証明可能な加速結果は、HBの加速度を示す現在の技術は、ヘシアンが固定された場合に限られているため、2次あるいは2次に近い関数である。
本研究では,2点連続時間におけるヘッセン変換が収束速度にどう影響するかを解析し,二次性を超えて加速を示す新しい手法を開発した。
本研究の技術的結果に基づき、hbを介して証明可能な加速度を達成することができるポリak-\l{}ojasiewicz(pl)最適化問題のクラスを同定する。
さらに,本分析は運動量パラメータを適応的に設定する利点を示す。
関連論文リスト
- DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Momentum Doesn't Change the Implicit Bias [36.301490759243876]
我々は運動量に基づく最適化の暗黙バイアスを分析する。
モデルパラメータと最大マージン解の間のギャップを解析するためのツールとして,新しいリアプノフ関数を構築した。
論文 参考訳(メタデータ) (2021-10-08T04:37:18Z) - Accelerate Distributed Stochastic Descent for Nonconvex Optimization
with Momentum [12.324457683544132]
本稿では,そのようなモデル平均化手法のモーメント法を提案する。
このような運動量法の収束特性とスケーリング特性を解析する。
実験の結果,ブロックモーメントはトレーニングを加速するだけでなく,より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-01T19:23:18Z) - Just a Momentum: Analytical Study of Momentum-Based Acceleration Methods
in Paradigmatic High-Dimensional Non-Convex Problem [12.132641563193584]
損失関数が過剰な場合、バニラ勾配に基づく損失法よりも運動量に基づく方法を使うのが一般的である。
実効的なステップボールのダイナミクスは, 質量の増大によって向上し, 上昇することを示す。
論文 参考訳(メタデータ) (2021-02-23T15:30:57Z) - Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。
我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。
我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文 参考訳(メタデータ) (2021-01-23T17:58:25Z) - Quickly Finding a Benign Region via Heavy Ball Momentum in Non-Convex
Optimization [8.452237741722724]
重球法は連続関数を最適化する一階法である。
重球運動量は,大域的最適点を高速に含む良性相に入るのに役立つことを示す。
論文 参考訳(メタデータ) (2020-10-04T00:07:06Z) - Fast Gravitational Approach for Rigid Point Set Registration with
Ordinary Differential Equations [79.71184760864507]
本稿では,FGA(Fast Gravitational Approach)と呼ばれる厳密な点集合アライメントのための物理に基づく新しい手法を紹介する。
FGAでは、ソースとターゲットの点集合は、シミュレーションされた重力場内を移動しながら、世界規模で多重リンクされた方法で相互作用する質量を持つ剛体粒子群として解釈される。
従来のアライメント手法では,新しいメソッドクラスには特徴がないことを示す。
論文 参考訳(メタデータ) (2020-09-28T15:05:39Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。