Fugu-MT 論文翻訳(概要): Disentangling Adaptive Gradient Methods from Learning Rates

論文の概要: Disentangling Adaptive Gradient Methods from Learning Rates

arxiv url: http://arxiv.org/abs/2002.11803v1
Date: Wed, 26 Feb 2020 21:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 14:24:34.250022
Title: Disentangling Adaptive Gradient Methods from Learning Rates
Title（参考訳）: 適応勾配法を学習率から分離する
Authors: Naman Agarwal, Rohan Anil, Elad Hazan, Tomer Koren, Cyril Zhang
Abstract要約: 適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。適応勾配法の一般化に関する経験的および理論的考察を示す。
参考スコア（独自算出の注目度）: 65.0397050979662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate several confounding factors in the evaluation of optimization algorithms for deep learning. Primarily, we take a deeper look at how adaptive gradient methods interact with the learning rate schedule, a notoriously difficult-to-tune hyperparameter which has dramatic effects on the convergence and generalization of neural network training. We introduce a "grafting" experiment which decouples an update's magnitude from its direction, finding that many existing beliefs in the literature may have arisen from insufficient isolation of the implicit schedule of step sizes. Alongside this contribution, we present some empirical and theoretical retrospectives on the generalization of adaptive gradient methods, aimed at bringing more clarity to this space.
Abstract（参考訳）: 本研究では,深層学習のための最適化アルゴリズムの評価におけるいくつかの要因について検討する。主に、ニューラルネットワークトレーニングの収束と一般化に劇的な影響を及ぼす、学習速度スケジュールと適応勾配法がどのように相互作用するかについて、より深く検討する。我々は,その方向から更新の大きさを分離する"グラフト"実験を行い,ステップサイズの暗黙的なスケジュールの分離が不十分なことから,文献上の既存の多くの信念が生じた可能性があることを発見した。この貢献と並行して,適応勾配法(adaptive gradient method)の一般化に関する経験的および理論的ふりかえりを紹介する。

関連論文リスト

Scaled Conjugate Gradient Method for Nonconvex Optimization in Deep Neural Networks [0.6144680854063939]
ディープニューラルネットワークを用いた非最適化問題の解法として,スケールド共役勾配法を提案する。提案手法は,画像分類やテキスト分類の実用化において,共役勾配法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T02:57:23Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Interpreting Adaptive Gradient Methods by Parameter Scaling for Learning-Rate-Free Optimization [14.009179786857802]
深層ニューラルネットワークの学習に使用される適応的勾配法について,学習率を推定する上での課題に対処する。学習速度のないいくつかのアプローチが提案されているが、それらは典型的には最も急降下に適したものである。本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈する。
論文参考訳（メタデータ） (2024-01-06T15:45:29Z)
Delving into Effective Gradient Matching for Dataset Condensation [13.75957901381024]
勾配マッチング法は、元のデータセットと合成データセットのトレーニング時に勾配をマッチングすることで、トレーニングダイナミクスを直接ターゲットとする。クラス内勾配情報とクラス間勾配情報の両方を含む多段階勾配情報とを一致させることを提案する。アルゴリズムの効率向上のための不要な最適化ステップをトリムするために、過適合適応学習ステップ戦略も提案されている。
論文参考訳（メタデータ） (2022-07-30T21:31:10Z)
Adaptive Learning Rate and Momentum for Training Deep Neural Networks [0.0]
本研究では,非線形共役勾配(CG)フレームワークによる高速トレーニング手法を開発した。画像分類データセットの実験により,本手法は他の局所解法よりも高速な収束が得られることが示された。
論文参考訳（メタデータ） (2021-06-22T05:06:56Z)
Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文参考訳（メタデータ） (2021-04-12T13:13:34Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
A Random Matrix Theory Approach to Damping in Deep Learning [0.7614628596146599]
深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
論文参考訳（メタデータ） (2020-11-15T18:19:42Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2020-04-13T10:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。