論文の概要: Leveraging Non-uniformity in First-order Non-convex Optimization
- arxiv url: http://arxiv.org/abs/2105.06072v1
- Date: Thu, 13 May 2021 04:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:52:30.104876
- Title: Leveraging Non-uniformity in First-order Non-convex Optimization
- Title(参考訳): 一階非凸最適化における非一様性の利用
- Authors: Jincheng Mei, Yue Gao, Bo Dai, Csaba Szepesvari, Dale Schuurmans
- Abstract要約: 目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
- 参考スコア(独自算出の注目度): 93.6817946818977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical global convergence results for first-order methods rely on uniform
smoothness and the \L{}ojasiewicz inequality. Motivated by properties of
objective functions that arise in machine learning, we propose a non-uniform
refinement of these notions, leading to \emph{Non-uniform Smoothness} (NS) and
\emph{Non-uniform \L{}ojasiewicz inequality} (N\L{}). The new definitions
inspire new geometry-aware first-order methods that are able to converge to
global optimality faster than the classical $\Omega(1/t^2)$ lower bounds. To
illustrate the power of these geometry-aware methods and their corresponding
non-uniform analysis, we consider two important problems in machine learning:
policy gradient optimization in reinforcement learning (PG), and generalized
linear model training in supervised learning (GLM). For PG, we find that
normalizing the gradient ascent method can accelerate convergence to
$O(e^{-t})$ while incurring less overhead than existing algorithms. For GLM, we
show that geometry-aware normalized gradient descent can also achieve a linear
convergence rate, which significantly improves the best known results. We
additionally show that the proposed geometry-aware descent methods escape
landscape plateaus faster than standard gradient descent. Experimental results
are used to illustrate and complement the theoretical findings.
- Abstract(参考訳): 一階法に対する古典的な大域収束の結果は一様滑らかさとojasiewicz不等式に依存する。
機械学習で生じる目的関数の性質に動機付けられて、これらの概念の非一様洗練を提案し、それによって \emph{Non-uniform Smoothness} (NS) と \emph{Non-uniform \L{}ojasiewicz inequality} (N\L{}) が導かれる。
新しい定義は、古典的な$\Omega(1/t^2)$下界よりも早く大域的最適性に収束できる新しい幾何学的一階法を刺激する。
これらの幾何学的手法とその非一様解析のパワーを説明するために,強化学習におけるポリシー勾配最適化(PG)と教師あり学習における一般化線形モデルトレーニング(GLM)という,機械学習における2つの重要な問題を考える。
PGの場合、勾配上昇法を正規化することで、既存のアルゴリズムよりもオーバーヘッドが少なく、$O(e^{-t})$への収束を加速できる。
GLMの場合、幾何認識の正規化勾配勾配は線形収束率も達成でき、最もよく知られた結果が大幅に向上することを示した。
また,提案手法は標準勾配降下よりも高速に地形台地を脱出することを示す。
実験結果は理論的な知見を説明・補完するために用いられる。
関連論文リスト
- Extended convexity and smoothness and their applications in deep learning [0.0]
本稿では,非完全に理解された勾配と強い凸性に対する$mathcal$H$smoothnessアルゴリズムを提案する。
提案手法の有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-10-08T08:40:07Z) - A Methodology Establishing Linear Convergence of Adaptive Gradient Methods under PL Inequality [5.35599092568615]
AdaGrad と Adam は、コスト関数が滑らかで、Polyak-Lojasiewicz の不等式を満たすときに線型収束することを示す。
我々のフレームワークは、他の変種Adamの線形収束解析に利用できる可能性がある。
論文 参考訳(メタデータ) (2024-07-17T14:56:21Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。