Fugu-MT 論文翻訳(概要): ELRA: Exponential learning rate adaption gradient descent optimization method

論文の概要: ELRA: Exponential learning rate adaption gradient descent optimization method

arxiv url: http://arxiv.org/abs/2309.06274v1
Date: Tue, 12 Sep 2023 14:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 12:42:50.029991
Title: ELRA: Exponential learning rate adaption gradient descent optimization method
Title（参考訳）: ELRA:指数学習率適応勾配勾配最適化法
Authors: Alexander Kleinsorge, Stefan Kupper, Alexander Fauck, Felix Rothe
Abstract要約: 我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
参考スコア（独自算出の注目度）: 83.88591755871734
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a novel, fast (exponential rate adaption), ab initio (hyper-parameter-free) gradient based optimizer algorithm. The main idea of the method is to adapt the learning rate $\alpha$ by situational awareness, mainly striving for orthogonal neighboring gradients. The method has a high success and fast convergence rate and does not rely on hand-tuned parameters giving it greater universality. It can be applied to problems of any dimensions n and scales only linearly (of order O(n)) with the dimension of the problem. It optimizes convex and non-convex continuous landscapes providing some kind of gradient. In contrast to the Ada-family (AdaGrad, AdaMax, AdaDelta, Adam, etc.) the method is rotation invariant: optimization path and performance are independent of coordinate choices. The impressive performance is demonstrated by extensive experiments on the MNIST benchmark data-set against state-of-the-art optimizers. We name this new class of optimizers after its core idea Exponential Learning Rate Adaption - ELRA. We present it in two variants c2min and p2min with slightly different control. The authors strongly believe that ELRA will open a completely new research direction for gradient descent optimize.
Abstract（参考訳）: 本稿では, 高速(指数速度適応), ab initio(ハイパーパラメータフリー)勾配に基づく最適化アルゴリズムを提案する。この方法の主なアイデアは、状況認識によって学習率$\alpha$を適応させることである。この方法は高い成功率と高速収束率を持ち、より普遍性の高い手動パラメータに依存しない。これは任意の次元 n の問題に適用でき、問題の次元を持つ(次数 o(n)) だけを線形にスケールすることができる。ある種の勾配を提供する凸および非凸の連続景観を最適化する。 Ada- Family(AdaGrad、AdaMax、AdaDelta、Adamなど)とは対照的に、この方法は回転不変である。この性能は、最先端オプティマイザに対するMNISTベンチマークデータセットの広範な実験によって実証されている。この新しいクラスのオプティマイザは,そのコアアイデア指数的学習率適応 - elraにちなむものです。わずかに異なる制御を持つ2つの変種c2minとp2minを示す。著者らは、ELRAが勾配降下最適化のための全く新しい研究方向を開くと強く信じている。

関連論文リスト

Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。非ゼロ値で2階モーメント推定を初期化する。
論文参考訳（メタデータ） (2024-12-03T04:28:14Z)
Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文参考訳（メタデータ） (2024-09-23T13:11:37Z)
AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix [9.629238108795013]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-12-04T06:20:14Z)
Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T03:47:14Z)
An Accelerated Variance-Reduced Conditional Gradient Sliding Algorithm for First-order and Zeroth-order Optimization [111.24899593052851]
条件勾配アルゴリズム(Frank-Wolfeアルゴリズムとも呼ばれる)は、最近、機械学習コミュニティで人気を取り戻している。 ARCSは、ゼロ階最適化において凸問題を解く最初のゼロ階条件勾配スライディング型アルゴリズムである。 1次最適化では、ARCSの収束結果は、勾配クエリのオラクルの数で、従来のアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2021-09-18T07:08:11Z)
Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。 Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文参考訳（メタデータ） (2021-09-07T20:19:40Z)
Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文参考訳（メタデータ） (2021-05-13T04:23:07Z)
Adaptive Gradient Methods for Constrained Convex Optimization and Variational Inequalities [32.51470158863247]
AdaACSAとAdaAGD+は制約付き凸最適化の高速化手法である。我々はこれらを、同じ特徴を享受し、標準の非加速収束率を達成する、より単純なアルゴリズムAdaGrad+で補完する。
論文参考訳（メタデータ） (2020-07-17T09:10:21Z)
Gradient Free Minimax Optimization: Variance Reduction and Faster Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文参考訳（メタデータ） (2020-06-16T17:55:46Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。