論文の概要: ELRA: Exponential learning rate adaption gradient descent optimization
method
- arxiv url: http://arxiv.org/abs/2309.06274v1
- Date: Tue, 12 Sep 2023 14:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:42:50.029991
- Title: ELRA: Exponential learning rate adaption gradient descent optimization
method
- Title(参考訳): ELRA:指数学習率適応勾配勾配最適化法
- Authors: Alexander Kleinsorge, Stefan Kupper, Alexander Fauck, Felix Rothe
- Abstract要約: 我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
- 参考スコア(独自算出の注目度): 83.88591755871734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel, fast (exponential rate adaption), ab initio
(hyper-parameter-free) gradient based optimizer algorithm. The main idea of the
method is to adapt the learning rate $\alpha$ by situational awareness, mainly
striving for orthogonal neighboring gradients. The method has a high success
and fast convergence rate and does not rely on hand-tuned parameters giving it
greater universality. It can be applied to problems of any dimensions n and
scales only linearly (of order O(n)) with the dimension of the problem. It
optimizes convex and non-convex continuous landscapes providing some kind of
gradient. In contrast to the Ada-family (AdaGrad, AdaMax, AdaDelta, Adam, etc.)
the method is rotation invariant: optimization path and performance are
independent of coordinate choices. The impressive performance is demonstrated
by extensive experiments on the MNIST benchmark data-set against
state-of-the-art optimizers. We name this new class of optimizers after its
core idea Exponential Learning Rate Adaption - ELRA. We present it in two
variants c2min and p2min with slightly different control. The authors strongly
believe that ELRA will open a completely new research direction for gradient
descent optimize.
- Abstract(参考訳): 本稿では, 高速(指数速度適応), ab initio(ハイパーパラメータフリー)勾配に基づく最適化アルゴリズムを提案する。
この方法の主なアイデアは、状況認識によって学習率$\alpha$を適応させることである。
この方法は高い成功率と高速収束率を持ち、より普遍性の高い手動パラメータに依存しない。
これは任意の次元 n の問題に適用でき、問題の次元を持つ(次数 o(n)) だけを線形にスケールすることができる。
ある種の勾配を提供する凸および非凸の連続景観を最適化する。
Ada- Family(AdaGrad、AdaMax、AdaDelta、Adamなど)とは対照的に、この方法は回転不変である。
この性能は、最先端オプティマイザに対するMNISTベンチマークデータセットの広範な実験によって実証されている。
この新しいクラスのオプティマイザは,そのコアアイデア指数的学習率適応 - elraにちなむものです。
わずかに異なる制御を持つ2つの変種c2minとp2minを示す。
著者らは、ELRAが勾配降下最適化のための全く新しい研究方向を開くと強く信じている。
関連論文リスト
- AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix [9.629238108795013]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - An Accelerated Variance-Reduced Conditional Gradient Sliding Algorithm
for First-order and Zeroth-order Optimization [111.24899593052851]
条件勾配アルゴリズム(Frank-Wolfeアルゴリズムとも呼ばれる)は、最近、機械学習コミュニティで人気を取り戻している。
ARCSは、ゼロ階最適化において凸問題を解く最初のゼロ階条件勾配スライディング型アルゴリズムである。
1次最適化では、ARCSの収束結果は、勾配クエリのオラクルの数で、従来のアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-18T07:08:11Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - BiAdam: Fast Adaptive Bilevel Optimization Methods [104.96004056928474]
バイレベル最適化は多くの応用のために機械学習への関心が高まっている。
制約付き最適化と制約なし最適化の両方に有用な分析フレームワークを提供する。
論文 参考訳(メタデータ) (2021-06-21T20:16:40Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Adaptive Gradient Methods for Constrained Convex Optimization and
Variational Inequalities [32.51470158863247]
AdaACSAとAdaAGD+は制約付き凸最適化の高速化手法である。
我々はこれらを、同じ特徴を享受し、標準の非加速収束率を達成する、より単純なアルゴリズムAdaGrad+で補完する。
論文 参考訳(メタデータ) (2020-07-17T09:10:21Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。