論文の概要: Large Catapults in Momentum Gradient Descent with Warmup: An Empirical
Study
- arxiv url: http://arxiv.org/abs/2311.15051v2
- Date: Mon, 8 Jan 2024 09:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:27:52.855500
- Title: Large Catapults in Momentum Gradient Descent with Warmup: An Empirical
Study
- Title(参考訳): ウォームアップを伴う運動失調の大型カタパルト : 実証的研究
- Authors: Prin Phunyaphibarn, Junghyun Lee, Bohan Wang, Huishuai Zhang, Chulhee
Yun
- Abstract要約: 学習速度と学習速度のウォームアップを伴う運動量勾配勾配は大きなカタパルトを示し、勾配勾配よりも平らなミニマに向かって進行することを示した。
次に、大きなカタパルトは自己安定化効果を増幅する運動量によって引き起こされるという経験的証拠と理論的直観を与える。
- 参考スコア(独自算出の注目度): 31.60669210090361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although gradient descent with momentum is widely used in modern deep
learning, a concrete understanding of its effects on the training trajectory
still remains elusive. In this work, we empirically show that momentum gradient
descent with a large learning rate and learning rate warmup displays large
catapults, driving the iterates towards flatter minima than those found by
gradient descent. We then provide empirical evidence and theoretical intuition
that the large catapult is caused by momentum "amplifying" the
self-stabilization effect (Damian et al., 2023).B.1
- Abstract(参考訳): 運動量による勾配降下は現代の深層学習で広く用いられているが、訓練軌道に対するその影響の具体的な理解はいまだに解明されていない。
本研究では,学習速度が大きい運動量勾配降下と学習速度ウォームアップが大きなカタパルトを表示し,傾斜降下によって得られるものよりも平坦な最小値に向かってイテレートを駆動することを示す。
すると、大きなカタパルトが自安定効果を「増幅する」運動量によって引き起こされるという実証的な証拠と理論的直観を与える(damian et al., 2023)。
B.1
関連論文リスト
- Catapults in SGD: spikes in the training loss and their impact on
generalization through feature learning [16.802743585824025]
我々は、勾配降下の訓練損失(SGD)のスパイクが「触媒」であることを示す。
我々は,カタパルトが真の予測器の平均勾配外積(AGOP)との整合性を高めて特徴学習を促進することを示す。
SGDのバッチサイズが小さくなれば、より多くのカタパルトが発生し、AGOPアライメントとテスト性能が向上する。
論文 参考訳(メタデータ) (2023-06-07T22:37:11Z) - Catapult Dynamics and Phase Transitions in Quadratic Nets [10.32543637637479]
カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。
一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。
また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
論文 参考訳(メタデータ) (2023-01-18T19:03:48Z) - On the Overlooked Structure of Stochastic Gradients [34.650998241703626]
一方,ミニバッチトレーニングによる繰り返し勾配と勾配雑音は,通常,パワー則重尾は示さない。
我々の研究は、既存の信念に挑戦し、ディープラーニングにおける勾配の構造に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-12-05T07:55:22Z) - Accelerate Distributed Stochastic Descent for Nonconvex Optimization
with Momentum [12.324457683544132]
本稿では,そのようなモデル平均化手法のモーメント法を提案する。
このような運動量法の収束特性とスケーリング特性を解析する。
実験の結果,ブロックモーメントはトレーニングを加速するだけでなく,より良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-01T19:23:18Z) - Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive
Learners With FlatNCE [104.37515476361405]
比較学習者が小さいバッチサイズで失敗する理由を数学的に明らかにする。
この問題を解決するために,FlatNCEという新たな非ネイティブコントラスト目標を提案する。
論文 参考訳(メタデータ) (2021-07-02T15:50:43Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - A Primer on Motion Capture with Deep Learning: Principles, Pitfalls and
Perspectives [67.34875595325597]
このプライマーでは、深層学習によるモーションキャプチャーの芽生えた分野を概観する。
我々はこれらの新しいアルゴリズムの原理について議論し、その可能性と実験者の落とし穴を明らかにする。
論文 参考訳(メタデータ) (2020-09-01T16:51:33Z) - On Catastrophic Interference in Atari 2600 Games [104.61596014400892]
干渉が高原にパフォーマンスをもたらすことを示す。
アーキテクチャ、学習アルゴリズム、環境にまたがるパフォーマンス向上を実証します。
より洗練された分析によって、あるゲームの一部を学ぶことは、しばしば他の場所で予測エラーを増加させることを示している。
論文 参考訳(メタデータ) (2020-02-28T00:55:03Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。