論文の概要: Training Deep Neural Networks with Adaptive Momentum Inspired by the
Quadratic Optimization
- arxiv url: http://arxiv.org/abs/2110.09057v1
- Date: Mon, 18 Oct 2021 07:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 20:55:50.627809
- Title: Training Deep Neural Networks with Adaptive Momentum Inspired by the
Quadratic Optimization
- Title(参考訳): 二次最適化に基づく適応モーメントを用いた深層ニューラルネットワークの学習
- Authors: Tao Sun, Huaming Ling, Zuoqiang Shi, Dongsheng Li, Bao Wang
- Abstract要約: 重球運動量の最適選択に着想を得た新しい適応運動量を提案する。
提案した適応重球運動量は勾配降下(SGD)とアダムを改善することができる。
我々は、画像分類、言語モデリング、機械翻訳を含む幅広い機械学習ベンチマークにおいて、SGDとAdamの効率を新しい適応運動量で検証する。
- 参考スコア(独自算出の注目度): 20.782428252187024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heavy ball momentum is crucial in accelerating (stochastic) gradient-based
optimization algorithms for machine learning. Existing heavy ball momentum is
usually weighted by a uniform hyperparameter, which relies on excessive tuning.
Moreover, the calibrated fixed hyperparameter may not lead to optimal
performance. In this paper, to eliminate the effort for tuning the
momentum-related hyperparameter, we propose a new adaptive momentum inspired by
the optimal choice of the heavy ball momentum for quadratic optimization. Our
proposed adaptive heavy ball momentum can improve stochastic gradient descent
(SGD) and Adam. SGD and Adam with the newly designed adaptive momentum are more
robust to large learning rates, converge faster, and generalize better than the
baselines. We verify the efficiency of SGD and Adam with the new adaptive
momentum on extensive machine learning benchmarks, including image
classification, language modeling, and machine translation. Finally, we provide
convergence guarantees for SGD and Adam with the proposed adaptive momentum.
- Abstract(参考訳): 重い球運動量は、(確率的な)勾配に基づく機械学習最適化アルゴリズムの高速化に不可欠である。
既存の重い球運動量は通常、過度のチューニングに依存する均一なハイパーパラメータによって重み付けされる。
さらに、キャリブレーションされた固定ハイパーパラメータは最適性能に繋がらない。
本稿では,運動量関連ハイパーパラメータのチューニングの労力をなくすため,重球運動量の最適選択に触発された新しい適応運動量を提案する。
提案する適応重球運動量は,確率勾配降下 (sgd) とadamを改善できる。
新たに設計された適応運動量を持つSGDとAdamは、大きな学習率に対してより堅牢であり、より早く収束し、ベースラインよりも良く一般化する。
画像分類,言語モデリング,機械翻訳など,広範な機械学習ベンチマークにおいて,新たな適応運動量を用いてsgdとadamの効率を検証した。
最後に,提案する適応運動量を用いてsgdとadamの収束保証を提供する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Stochastic Gradient Descent with Nonlinear Conjugate Gradient-Style
Adaptive Momentum [9.843647947055745]
ディープラーニングの実践では、運動量はよく校正された定数によって重み付けされる。
本稿では,DNNのトレーニング改善のための新しい強調モーメントを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:59:43Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Multi-level Training and Bayesian Optimization for Economical
Hyperparameter Optimization [12.92634461859467]
本稿では,ハイパーパラメータ最適化に必要なトレーニング時間の総量を削減するための効果的な手法を開発する。
光のトレーニングによって生じる近似的な性能測定をキャリブレーションするために, トランキャット付加法ガウス過程モデルを提案する。
このモデルに基づいて、逐次モデルに基づくアルゴリズムが開発され、構成空間のパフォーマンスプロファイルを生成し、最適なモデルを見つける。
論文 参考訳(メタデータ) (2020-07-20T09:03:02Z) - Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate
and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。
提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T05:21:02Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。