論文の概要: Overshoot: Taking advantage of future gradients in momentum-based stochastic optimization
- arxiv url: http://arxiv.org/abs/2501.09556v1
- Date: Thu, 16 Jan 2025 14:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:43.207890
- Title: Overshoot: Taking advantage of future gradients in momentum-based stochastic optimization
- Title(参考訳): オーバーシュート:運動量に基づく確率最適化における将来の勾配の活用
- Authors: Jakub Kopal, Michal Gregor, Santiago de Leon-Martinez, Jakub Simko,
- Abstract要約: オーバーシュート(Overshoot)は、標準およびネステロフの運動量を超えて性能を高めるために設計された運動量に基づく降下最適化手法である。
オーバーシュートは、様々なタスクで標準とネステロフの勢いを一貫して上回っている。
- 参考スコア(独自算出の注目度): 1.4303041760959478
- License:
- Abstract: Overshoot is a novel, momentum-based stochastic gradient descent optimization method designed to enhance performance beyond standard and Nesterov's momentum. In conventional momentum methods, gradients from previous steps are aggregated with the gradient at current model weights before taking a step and updating the model. Rather than calculating gradient at the current model weights, Overshoot calculates the gradient at model weights shifted in the direction of the current momentum. This sacrifices the immediate benefit of using the gradient w.r.t. the exact model weights now, in favor of evaluating at a point, which will likely be more relevant for future updates. We show that incorporating this principle into momentum-based optimizers (SGD with momentum and Adam) results in faster convergence (saving on average at least 15% of steps). Overshoot consistently outperforms both standard and Nesterov's momentum across a wide range of tasks and integrates into popular momentum-based optimizers with zero memory and small computational overhead.
- Abstract(参考訳): オーバーシュートは、標準とネステロフの運動量を超えた性能を高めるために設計された、新しい運動量に基づく確率勾配勾配最適化手法である。
従来の運動量法では、従来のステップからの勾配は、ステップを踏んでモデルを更新する前に、現在のモデルウェイトにおける勾配と集約される。
現在のモデルウェイトでの勾配を計算するのではなく、オーバーシュートはモデルウェイトにおける勾配を電流モーメントの方向にシフトさせる。
これにより、現在の正確なモデルの重み付けを勾配w.r.t.を使用するという直接的な利点を犠牲にし、ある時点での評価に賛成する。
この原理を運動量に基づく最適化器(運動量を持つSGDとアダム)に組み込むことで、より高速な収束(少なくとも15%のステップを省く)が得られることを示す。
オーバーシュートは、様々なタスクで標準とネステロフの運動量を上回っ、メモリがゼロで計算オーバーヘッドが小さい一般的な運動量ベースのオプティマイザに統合される。
関連論文リスト
- The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Hidden Markov Models with Momentum [6.48893856598641]
隠れマルコフモデルのトレーニングのためのBaum-Welch予測最大化アルゴリズムに運動量を加える実験を行った。
実験の結果,Baum-Welch に運動量を加えることで,初期収束に必要な反復回数を減らすことができることがわかった。
しかし、モーメントは、多数のイテレーションで最終的なモデルパフォーマンスを改善するようには見えない。
論文 参考訳(メタデータ) (2022-06-08T15:49:43Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Accelerate Distributed Stochastic Descent for Nonconvex Optimization
with Momentum [12.324457683544132]
本稿では,そのようなモデル平均化手法のモーメント法を提案する。
このような運動量法の収束特性とスケーリング特性を解析する。
実験の結果,ブロックモーメントはトレーニングを加速するだけでなく,より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-01T19:23:18Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Escaping Saddle Points Faster with Stochastic Momentum [9.485782209646445]
ディープネットワークでは、モーメントは収束時間を大幅に改善しているように見える。
我々は,SGDを高速に回避できるため,運動量が深度トレーニングを改善することを示す。
また、理想運動量パラメータの選択方法を示す。
論文 参考訳(メタデータ) (2021-06-05T23:34:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - A New Accelerated Stochastic Gradient Method with Momentum [4.967897656554012]
運動量(Sgdm)による勾配降下は、繰り返し時間とともに指数関数的に減衰する重みを使い、運動量項を生成する。
本研究では,指数関数的減衰重みと逆比例分解重みの両方が領域に最適化されるパラメータの移動方向のばらつきを制限することができる理論収束特性解析を行う。
論文 参考訳(メタデータ) (2020-05-31T03:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。