論文の概要: Step-size Adaptation Using Exponentiated Gradient Updates
- arxiv url: http://arxiv.org/abs/2202.00145v1
- Date: Mon, 31 Jan 2022 23:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 02:35:02.535009
- Title: Step-size Adaptation Using Exponentiated Gradient Updates
- Title(参考訳): Exponentated Gradient Updates を用いたステップサイズ適応
- Authors: Ehsan Amid, Rohan Anil, Christopher Fifty, Manfred K. Warmuth
- Abstract要約: ステップサイズの適応的なチューニング手法で与えられた拡張が性能を大幅に向上させることを示す。
私たちは、アップデートのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。
提案手法は, 特別に調整された学習率スケジュールを使わずに, 標準モデルの精度を高めることができることを示す。
- 参考スコア(独自算出の注目度): 21.162404996362948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizers like Adam and AdaGrad have been very successful in training
large-scale neural networks. Yet, the performance of these methods is heavily
dependent on a carefully tuned learning rate schedule. We show that in many
large-scale applications, augmenting a given optimizer with an adaptive tuning
method of the step-size greatly improves the performance. More precisely, we
maintain a global step-size scale for the update as well as a gain factor for
each coordinate. We adjust the global scale based on the alignment of the
average gradient and the current gradient vectors. A similar approach is used
for updating the local gain factors. This type of step-size scale tuning has
been done before with gradient descent updates. In this paper, we update the
step-size scale and the gain variables with exponentiated gradient updates
instead. Experimentally, we show that our approach can achieve compelling
accuracy on standard models without using any specially tuned learning rate
schedule. We also show the effectiveness of our approach for quickly adapting
to distribution shifts in the data during training.
- Abstract(参考訳): AdamやAdaGradといったオプティマイザは、大規模なニューラルネットワークのトレーニングに成功しています。
しかし、これらの手法の性能は、注意深く調整された学習率のスケジュールに依存する。
多くの大規模アプリケーションにおいて、ステップサイズの適応的チューニング法により最適化器を増強することで、性能が大幅に向上することを示す。
より正確には、アップデートのためのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。
我々は、平均勾配と現在の勾配ベクトルのアライメントに基づいて、グローバルスケールを調整する。
同様のアプローチは、ローカル利得係数を更新するために使われる。
このタイプのステップサイズのスケールチューニングは、グラデーション降下更新で以前実施されたものだ。
本稿では、ステップサイズスケールとゲイン変数を指数化勾配更新で更新する。
実験では,特別に調整された学習率スケジュールを使わずに,標準モデルで説得力のある精度が得られることを示す。
また,トレーニング中のデータの分布変化に迅速に適応する手法の有効性を示す。
関連論文リスト
- Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。