論文の概要: AdaSGD: Bridging the gap between SGD and Adam
- arxiv url: http://arxiv.org/abs/2006.16541v1
- Date: Tue, 30 Jun 2020 05:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:45:09.251825
- Title: AdaSGD: Bridging the gap between SGD and Adam
- Title(参考訳): AdaSGD:SGDとAdamのギャップを埋める
- Authors: Jiaxuan Wang, Jenna Wiens
- Abstract要約: 我々はSGDとAdamのパフォーマンスの潜在的な違いを同定する。
我々は、AdaSGDがSGD AdamとSGD非降下の両方の利点を組み合わせていることを実証する。
- 参考スコア(独自算出の注目度): 14.886598905466604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of stochastic gradient descent(SGD) and adaptive moment
estimation (Adam),researchers have recently proposed optimization techniques
that transition from Adam to SGD with the goal of improving both convergence
and generalization performance. However, precisely how each approach trades off
early progress and generalization is not well understood; thus, it is unclear
when or even if, one should transition from one approach to the other. In this
work, by first studying the convex setting, we identify potential contributors
to observed differences in performance between SGD and Adam. In particular,we
provide theoretical insights for when and why Adam outperforms SGD and vice
versa. We ad-dress the performance gap by adapting a single global learning
rate for SGD, which we refer to as AdaSGD. We justify this proposed approach
with empirical analyses in non-convex settings. On several datasets that span
three different domains,we demonstrate how AdaSGD combines the benefits of both
SGD and Adam, eliminating the need for approaches that transition from Adam to
SGD.
- Abstract(参考訳): 近年,確率勾配降下 (SGD) と適応モーメント推定 (Adam) の文脈において,収束性および一般化性能の向上を目標として,アダムからSGDへ遷移する最適化手法が提案されている。
しかしながら、それぞれのアプローチの早期進行と一般化のトレードオフが正確には理解されていないため、あるアプローチから別のアプローチへ移行する時期や時期は明確ではない。
本研究では,まずconvex 設定の研究を行い,sgd と adam の性能差を観測する潜在的貢献者を特定する。
特に、Adam が SGD を上回った時期と理由に関する理論的知見を提供する。
我々は、AdaSGDと呼ぶSGDの1つのグローバル学習率を適用することで、パフォーマンスギャップを補足する。
提案手法を非凸設定における経験的解析を用いて正当化する。
3つの異なるドメインにまたがるいくつかのデータセットで、AdaSGDがSGDとAdamの両方の利点を組み合わせ、AdamからSGDへ移行するアプローチの必要性を排除していることを示す。
関連論文リスト
- A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD [28.905886549938305]
本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
我々は、アダムが漸近的でない複雑性サンプルを勾配降下の値と類似して得ることを示す。
論文 参考訳(メタデータ) (2024-10-06T12:15:00Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on
Transformers, but Sign Descent Might Be [16.170888329408353]
大規模なバッチを持つAdamの挙動は、運動量を持つ符号降下と類似していることが示される。
我々は,SGDとAdamのパフォーマンスギャップにおいて,重み付けノイズと重み付けノイズが重要な要因ではないことを示す。
論文 参考訳(メタデータ) (2023-04-27T05:41:13Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。