Fugu-MT 論文翻訳(概要): Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study

論文の概要: Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study

arxiv url: http://arxiv.org/abs/2311.15051v2
Date: Mon, 8 Jan 2024 09:44:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 22:27:52.855500
Title: Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study
Title（参考訳）: ウォームアップを伴う運動失調の大型カタパルト : 実証的研究
Authors: Prin Phunyaphibarn, Junghyun Lee, Bohan Wang, Huishuai Zhang, Chulhee Yun
Abstract要約: 学習速度と学習速度のウォームアップを伴う運動量勾配勾配は大きなカタパルトを示し、勾配勾配よりも平らなミニマに向かって進行することを示した。次に、大きなカタパルトは自己安定化効果を増幅する運動量によって引き起こされるという経験的証拠と理論的直観を与える。
参考スコア（独自算出の注目度）: 31.60669210090361
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although gradient descent with momentum is widely used in modern deep learning, a concrete understanding of its effects on the training trajectory still remains elusive. In this work, we empirically show that momentum gradient descent with a large learning rate and learning rate warmup displays large catapults, driving the iterates towards flatter minima than those found by gradient descent. We then provide empirical evidence and theoretical intuition that the large catapult is caused by momentum "amplifying" the self-stabilization effect (Damian et al., 2023).B.1
Abstract（参考訳）: 運動量による勾配降下は現代の深層学習で広く用いられているが、訓練軌道に対するその影響の具体的な理解はいまだに解明されていない。本研究では,学習速度が大きい運動量勾配降下と学習速度ウォームアップが大きなカタパルトを表示し,傾斜降下によって得られるものよりも平坦な最小値に向かってイテレートを駆動することを示す。すると、大きなカタパルトが自安定効果を「増幅する」運動量によって引き起こされるという実証的な証拠と理論的直観を与える(damian et al., 2023)。 B.1

関連論文リスト

Gradient flow for deep equilibrium single-index models [32.2015869030351]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、無限に深い重み付きニューラルネットワークをトレーニングするための強力なパラダイムとして登場した。線形モデルと単一インデックスモデルの簡単な設定でDECの勾配勾配勾配ダイナミクスを厳密に研究する。次に、線形DQと深い平衡単インデックスモデルに対する大域最小化器への勾配勾配勾配の線形収束を証明した。
論文参考訳（メタデータ） (2025-11-21T06:14:41Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
ResNets と Fully-Connected Nets を相互接続する Leaky ResNets について「有効深度」に依存して検討する。この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文参考訳（メタデータ） (2024-05-27T18:15:05Z)
On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文参考訳（メタデータ） (2024-02-20T16:01:42Z)
Towards Training Without Depth Limits: Batch Normalization Without Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文参考訳（メタデータ） (2023-10-03T12:35:02Z)
The Law of Parsimony in Gradient Descent for Learning Deep Linear Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-06-01T21:24:53Z)
Catapult Dynamics and Phase Transitions in Quadratic Nets [10.32543637637479]
カタパルト相は2層モデルと2層同種ニューラルネットを含む多種モデルのモデルに存在することを証明します。一定範囲の学習率において,損失が大きいと重みノルムが低下することを示す。また、この理論的に導出された範囲を超えて学習率を実証的に研究し、超臨界学習率で訓練されたReLUネットの活性化マップが、学習率を増加させるにつれて、より疎結合になることを示す。
論文参考訳（メタデータ） (2023-01-18T19:03:48Z)
Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文参考訳（メタデータ） (2022-01-28T07:31:19Z)
There is a Singularity in the Loss Landscape [0.0]
データセットのサイズが大きくなるにつれて、損失の勾配の大きさが無界となる点が形成される。この特異性は、ニューラルネットワーク損失関数のヘッセンで最近観測された様々な現象を説明する。
論文参考訳（メタデータ） (2022-01-12T01:50:06Z)
Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文参考訳（メタデータ） (2021-12-06T18:17:08Z)
Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文参考訳（メタデータ） (2020-11-25T06:50:30Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
A Modular Analysis of Provable Acceleration via Polyak's Momentum: Training a Wide ReLU Network and a Deep Linear Network [13.170519806372072]
本稿では,一層ワイドReLUネットワークとディープリニアネットワークをトレーニングするために,Polyakの運動量の漸近加速線形速度を示す。この研究は、運動量によってニューラルネットのトレーニングが加速されることを証明している。
論文参考訳（メタデータ） (2020-10-04T16:16:22Z)
The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文参考訳（メタデータ） (2020-03-04T17:52:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。