論文の概要: Investigating Alternatives to the Root Mean Square for Adaptive Gradient
Methods
- arxiv url: http://arxiv.org/abs/2106.05449v1
- Date: Thu, 10 Jun 2021 01:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:17:12.308696
- Title: Investigating Alternatives to the Root Mean Square for Adaptive Gradient
Methods
- Title(参考訳): 適応勾配法におけるルート平均角形に対する代替策の検討
- Authors: Brett Daley and Christopher Amato
- Abstract要約: Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。
最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。
適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
- 参考スコア(独自算出の注目度): 20.531576904743282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam is an adaptive gradient method that has experienced widespread adoption
due to its fast and reliable training performance. Recent approaches have not
offered significant improvement over Adam, often because they do not innovate
upon one of its core features: normalization by the root mean square (RMS) of
recent gradients. However, as noted by Kingma and Ba (2015), any number of
$L^p$ normalizations are possible, with the RMS corresponding to the specific
case of $p=2$. In our work, we theoretically and empirically characterize the
influence of different $L^p$ norms on adaptive gradient methods for the first
time. We show mathematically how the choice of $p$ influences the size of the
steps taken, while leaving other desirable properties unaffected. We evaluate
Adam with various $L^p$ norms on a suite of deep learning benchmarks, and find
that $p > 2$ consistently leads to improved learning speed and final
performance. The choices of $p=3$ or $p=6$ also match or outperform
state-of-the-art methods in all of our experiments.
- Abstract(参考訳): Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。
最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。
しかしながら、Kingma and Ba (2015) が述べたように、任意の$L^p$正規化が可能であり、RMS は $p=2$ の特定の場合に対応する。
本研究では,適応勾配法に対する異なる$L^p$ノルムの影響を理論的,実証的に初めて特徴づける。
数学的には、$p$の選択がステップのサイズにどのように影響するかを示し、他の望ましい性質は影響しない。
ディープラーニングベンチマークスイート上でadamを様々な$l^p$ノルムで評価し,$p > 2$が学習速度と最終的なパフォーマンスを一貫して向上させることを確認した。
p=3$または$p=6$の選択は、すべての実験で最先端のメソッドにマッチするか、より優れています。
関連論文リスト
- ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Two Sides of One Coin: the Limits of Untuned SGD and the Power of
Adaptive Methods [22.052459124774504]
本研究では,未調整のSGDに対する適応的手法により,スムーズさと情報優位性で問題を緩和することを示す。
この結果から, 指数関数依存性が欠如している場合, 未修正SGDに対する適応手法の理論的正当性について検討した。
論文 参考訳(メタデータ) (2023-05-21T14:40:43Z) - Provable Adaptivity in Adam [87.29083241928804]
我々はアダムが局所的な滑らかさ条件に適応し、アダムの強調適応性を正当化できると主張している。
我々の結果は、適応的でないものよりも適応的勾配法の利点に光を当てるかもしれない。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - The Geometry of Sign Gradient Descent [29.8753797565422]
分離可能滑らか性と $ell_infty$-smoothness との密接な関係を示し、後者はより弱でより自然な仮定であると主張する。
次に、 $ell_infty$-norm に関する滑らか性定数の研究を進め、目的関数の幾何学的性質を分離する。
つまり、(i)Hessianがその対角線に集中していること、(ii)その最大固有値が平均固有値よりもはるかに大きいこと。
論文 参考訳(メタデータ) (2020-02-19T08:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。