論文の概要: Gradient descent with momentum --- to accelerate or to super-accelerate?
- arxiv url: http://arxiv.org/abs/2001.06472v1
- Date: Fri, 17 Jan 2020 18:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 10:07:38.124792
- Title: Gradient descent with momentum --- to accelerate or to super-accelerate?
- Title(参考訳): 運動量による勾配降下 ---加速するか、超加速するか?
- Authors: Goran Nakerst, John Brennan, Masudul Haque
- Abstract要約: 「この加速を延長してアルゴリズムを改良できることを示せ」
スーパーアクセラレーションは、RMSPropやAdamのような適応アルゴリズムに簡単に組み込むことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider gradient descent with `momentum', a widely used method for loss
function minimization in machine learning. This method is often used with
`Nesterov acceleration', meaning that the gradient is evaluated not at the
current position in parameter space, but at the estimated position after one
step. In this work, we show that the algorithm can be improved by extending
this `acceleration' --- by using the gradient at an estimated position several
steps ahead rather than just one step ahead. How far one looks ahead in this
`super-acceleration' algorithm is determined by a new hyperparameter.
Considering a one-parameter quadratic loss function, the optimal value of the
super-acceleration can be exactly calculated and analytically estimated. We
show explicitly that super-accelerating the momentum algorithm is beneficial,
not only for this idealized problem, but also for several synthetic loss
landscapes and for the MNIST classification task with neural networks.
Super-acceleration is also easy to incorporate into adaptive algorithms like
RMSProp or Adam, and is shown to improve these algorithms.
- Abstract(参考訳): 機械学習における損失関数最小化手法である「運動」を用いた勾配降下について検討する。
この方法は「ネステロフ加速度」でよく用いられ、パラメータ空間内の現在の位置ではなく1ステップ後の推定位置で勾配が評価される。
本研究では,1歩先ではなく数歩先にある推定位置の勾配を用いることで,この「加速度」を拡張することでアルゴリズムを改善することができることを示す。
この'super-acceleration'アルゴリズムでどこまで前進するかは、新しいハイパーパラメータによって決定されます。
1パラメータ二次損失関数を考えると、超加速の最適値は正確に計算され、解析的に推定できる。
モーメントアルゴリズムの高速化は、この理想化された問題だけでなく、いくつかの合成損失ランドスケープや、ニューラルネットワークを用いたMNIST分類タスクにも有用であることを示す。
超加速はrmspropやadamのような適応アルゴリズムに組み込むのも容易であり、これらのアルゴリズムを改善することが示されている。
関連論文リスト
- Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning [0.0]
機械学習アルゴリズムは勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。
全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。
本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。
論文 参考訳(メタデータ) (2023-04-13T18:26:05Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Multi-kernel Passive Stochastic Gradient Algorithms and Transfer
Learning [21.796874356469644]
勾配アルゴリズムはコスト関数のノイズ勾配が評価される位置を制御できない。
このアルゴリズムは高次元問題において著しく優れており、分散還元を取り入れている。
論文 参考訳(メタデータ) (2020-08-23T11:55:19Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。