Fugu-MT 論文翻訳(概要): Step-size Adaptation Using Exponentiated Gradient Updates

論文の概要: Step-size Adaptation Using Exponentiated Gradient Updates

arxiv url: http://arxiv.org/abs/2202.00145v1
Date: Mon, 31 Jan 2022 23:17:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 02:35:02.535009
Title: Step-size Adaptation Using Exponentiated Gradient Updates
Title（参考訳）: Exponentated Gradient Updates を用いたステップサイズ適応
Authors: Ehsan Amid, Rohan Anil, Christopher Fifty, Manfred K. Warmuth
Abstract要約: ステップサイズの適応的なチューニング手法で与えられた拡張が性能を大幅に向上させることを示す。私たちは、アップデートのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。提案手法は, 特別に調整された学習率スケジュールを使わずに, 標準モデルの精度を高めることができることを示す。
参考スコア（独自算出の注目度）: 21.162404996362948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizers like Adam and AdaGrad have been very successful in training large-scale neural networks. Yet, the performance of these methods is heavily dependent on a carefully tuned learning rate schedule. We show that in many large-scale applications, augmenting a given optimizer with an adaptive tuning method of the step-size greatly improves the performance. More precisely, we maintain a global step-size scale for the update as well as a gain factor for each coordinate. We adjust the global scale based on the alignment of the average gradient and the current gradient vectors. A similar approach is used for updating the local gain factors. This type of step-size scale tuning has been done before with gradient descent updates. In this paper, we update the step-size scale and the gain variables with exponentiated gradient updates instead. Experimentally, we show that our approach can achieve compelling accuracy on standard models without using any specially tuned learning rate schedule. We also show the effectiveness of our approach for quickly adapting to distribution shifts in the data during training.
Abstract（参考訳）: AdamやAdaGradといったオプティマイザは、大規模なニューラルネットワークのトレーニングに成功しています。しかし、これらの手法の性能は、注意深く調整された学習率のスケジュールに依存する。多くの大規模アプリケーションにおいて、ステップサイズの適応的チューニング法により最適化器を増強することで、性能が大幅に向上することを示す。より正確には、アップデートのためのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。我々は、平均勾配と現在の勾配ベクトルのアライメントに基づいて、グローバルスケールを調整する。同様のアプローチは、ローカル利得係数を更新するために使われる。このタイプのステップサイズのスケールチューニングは、グラデーション降下更新で以前実施されたものだ。本稿では、ステップサイズスケールとゲイン変数を指数化勾配更新で更新する。実験では,特別に調整された学習率スケジュールを使わずに,標準モデルで説得力のある精度が得られることを示す。また,トレーニング中のデータの分布変化に迅速に適応する手法の有効性を示す。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize [24.464140786923476]
後続近似により、ディリクレプロセスの混合のような非パラメトリックは、分数的なコストでより大きなデータセットにスケールアップできる。勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。本研究では,ディリクレプロセス混合物の後部近似のための高速アルゴリズムとして勾配上昇法について検討する。
論文参考訳（メタデータ） (2024-12-12T05:33:23Z)
Neural Gradient Learning and Optimization for Oriented Point Normal Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文参考訳（メタデータ） (2023-09-17T08:35:11Z)
Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。 Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文参考訳（メタデータ） (2021-09-07T20:19:40Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。モデルに基づく手続きが雑音勾配設定に収束することを証明する。これは自己チューニング二次体を構築するための興味深いステップである。
論文参考訳（メタデータ） (2020-11-09T22:07:30Z)
AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文参考訳（メタデータ） (2020-07-09T23:26:13Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。