論文の概要: Momentum Improves Normalized SGD
- arxiv url: http://arxiv.org/abs/2002.03305v2
- Date: Sun, 17 May 2020 03:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:24:37.309574
- Title: Momentum Improves Normalized SGD
- Title(参考訳): 運動量は正規化sgdを改善する
- Authors: Ashok Cutkosky and Harsh Mehta
- Abstract要約: モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
- 参考スコア(独自算出の注目度): 51.27183254738711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide an improved analysis of normalized SGD showing that adding
momentum provably removes the need for large batch sizes on non-convex
objectives. Then, we consider the case of objectives with bounded second
derivative and show that in this case a small tweak to the momentum formula
allows normalized SGD with momentum to find an $\epsilon$-critical point in
$O(1/\epsilon^{3.5})$ iterations, matching the best-known rates without
accruing any logarithmic factors or dependence on dimension. We also provide an
adaptive method that automatically improves convergence rates when the variance
in the gradients is small. Finally, we show that our method is effective when
employed on popular large scale tasks such as ResNet-50 and BERT pretraining,
matching the performance of the disparate methods used to get state-of-the-art
results on both tasks.
- Abstract(参考訳): 正規化SGDを改良した解析により,非凸目的の大規模バッチサイズの必要性を確実に除去できることを示す。
次に、有界二階微分を持つ対象の場合について考察し、この場合、運動量公式に対する小さな微調整により、運動量を持つ正規化 SGD が$O(1/\epsilon^{3.5})$繰り返しの$\epsilon$-Critical point を見つけることができ、対数因子や次元への依存を伴わずに最もよく知られた速度と一致することを示す。
また,勾配のばらつきが小さい場合に自動的に収束率を改善する適応法を提案する。
最後に,ResNet-50 や BERT の事前学習などの大規模タスクに使用する場合,両タスクの最先端化に使用する異種メソッドの性能とを一致させることで,本手法が有効であることを示す。
関連論文リスト
- Demystifying SGD with Doubly Stochastic Gradients [13.033133586372612]
一般条件下では、独立なミニバッチとランダムリシャッフルを併用した2重SGDの収束特性を確立する。
ランダムリシャッフルによりサブサンプリングノイズの複雑性依存性が向上することが証明された。
論文 参考訳(メタデータ) (2024-06-03T01:13:19Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Efficiency Ordering of Stochastic Gradient Descent [9.634481296779057]
我々は、任意のグラフ上のノイズやランダムウォークを含む一般的なサンプリングシーケンスによって駆動される勾配降下(SGD)アルゴリズムについて検討する。
我々は、マルコフ・チェイン・モンテカルロサンプリング器の性能を比較するためのよく分析されたツールである「効率順序付け」の概念を採用している。
論文 参考訳(メタデータ) (2022-09-15T16:50:55Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Second-order step-size tuning of SGD for non-convex optimization [6.021787236982659]
本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。
古典的なbarzilai-borwein法のバージョンと見なすことができる新しい一階勾配法(ステップ調整sgd)を得る。
論文 参考訳(メタデータ) (2021-03-05T10:01:48Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Momentum-Based Policy Gradient Methods [133.53164856723782]
モデルフリー強化学習のための効率的なモーメントに基づくポリシー勾配手法のクラスを提案する。
特に,IS-MBPG法の適応的でないバージョンを提示するが,これは大きなバッチを伴わずに$O(epsilon-3)$と最もよく知られたサンプルの複雑さに達する。
論文 参考訳(メタデータ) (2020-07-13T20:44:15Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。