Fugu-MT 論文翻訳(概要): Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods

論文の概要: Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods

arxiv url: http://arxiv.org/abs/2106.05449v1
Date: Thu, 10 Jun 2021 01:38:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-11 14:17:12.308696
Title: Investigating Alternatives to the Root Mean Square for Adaptive Gradient Methods
Title（参考訳）: 適応勾配法におけるルート平均角形に対する代替策の検討
Authors: Brett Daley and Christopher Amato
Abstract要約: Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
参考スコア（独自算出の注目度）: 20.531576904743282
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adam is an adaptive gradient method that has experienced widespread adoption due to its fast and reliable training performance. Recent approaches have not offered significant improvement over Adam, often because they do not innovate upon one of its core features: normalization by the root mean square (RMS) of recent gradients. However, as noted by Kingma and Ba (2015), any number of $L^p$ normalizations are possible, with the RMS corresponding to the specific case of $p=2$. In our work, we theoretically and empirically characterize the influence of different $L^p$ norms on adaptive gradient methods for the first time. We show mathematically how the choice of $p$ influences the size of the steps taken, while leaving other desirable properties unaffected. We evaluate Adam with various $L^p$ norms on a suite of deep learning benchmarks, and find that $p > 2$ consistently leads to improved learning speed and final performance. The choices of $p=3$ or $p=6$ also match or outperform state-of-the-art methods in all of our experiments.
Abstract（参考訳）: Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。しかしながら、Kingma and Ba (2015) が述べたように、任意の$L^p$正規化が可能であり、RMS は $p=2$ の特定の場合に対応する。本研究では,適応勾配法に対する異なる$L^p$ノルムの影響を理論的,実証的に初めて特徴づける。数学的には、$p$の選択がステップのサイズにどのように影響するかを示し、他の望ましい性質は影響しない。ディープラーニングベンチマークスイート上でadamを様々な$l^p$ノルムで評価し,$p > 2$が学習速度と最終的なパフォーマンスを一貫して向上させることを確認した。 p=3$または$p=6$の選択は、すべての実験で最先端のメソッドにマッチするか、より優れています。

関連論文リスト

ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。 ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文参考訳（メタデータ） (2024-11-05T06:57:47Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
Function Value Learning: Adaptive Learning Rates Based on the Polyak Stepsize and Function Splitting in ERM [6.542289202349586]
我々は、経験的リスク最小化(experiical risk minimization)としても知られる有限項和問題に焦点をあてる。最初に、サンプル損失値を利用する、$textttSPS_+$と呼ばれる理想化された適応メソッドを詳述する。次に、最適な損失値が徐々に学習される$textttSPS_+$の変種である$textttFUVAL$を開発する。
論文参考訳（メタデータ） (2023-07-26T22:12:31Z)
Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。 AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文参考訳（メタデータ） (2022-01-31T21:00:55Z)
A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning [16.824515577815696]
グラディエントベースメタRL(GMRL)は、2段階の最適化手順を維持する手法である。 GMRLで採用されている既存のメタグラディエント推定器は、実際にテキストバイアスを受けていることを示す。我々は,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。
論文参考訳（メタデータ） (2021-12-31T11:56:40Z)
Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文参考訳（メタデータ） (2021-10-25T08:46:00Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
Private Stochastic Non-Convex Optimization: Adaptive Algorithms and Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文参考訳（メタデータ） (2020-06-24T06:01:24Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-21T19:19:51Z)
The Geometry of Sign Gradient Descent [29.8753797565422]
分離可能滑らか性と $ell_infty$-smoothness との密接な関係を示し、後者はより弱でより自然な仮定であると主張する。次に、 $ell_infty$-norm に関する滑らか性定数の研究を進め、目的関数の幾何学的性質を分離する。つまり、(i)Hessianがその対角線に集中していること、(ii)その最大固有値が平均固有値よりもはるかに大きいこと。
論文参考訳（メタデータ） (2020-02-19T08:45:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。