論文の概要: Understanding Edge-of-Stability Training Dynamics with a Minimalist
Example
- arxiv url: http://arxiv.org/abs/2210.03294v1
- Date: Fri, 7 Oct 2022 02:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:34:14.326206
- Title: Understanding Edge-of-Stability Training Dynamics with a Minimalist
Example
- Title(参考訳): ミニマリストを用いたエッジ・オブ・ステイビリティ・トレーニングのダイナミクスの理解
- Authors: Xingyu Zhu, Zixuan Wang, Xiang Wang, Mo Zhou, Rong Ge
- Abstract要約: 近年、ディープニューラルネットワークの降下は、EoS(Edge-of-stability')体制で行われていることが研究で明らかになった。
大規模局所領域におけるその力学について厳密な解析を行い、なぜ最終収束点が2/eta$にシャープネスを持つのかを説明する。
- 参考スコア(独自算出の注目度): 20.714857891192345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, researchers observed that gradient descent for deep neural networks
operates in an ``edge-of-stability'' (EoS) regime: the sharpness (maximum
eigenvalue of the Hessian) is often larger than stability threshold 2/$\eta$
(where $\eta$ is the step size). Despite this, the loss oscillates and
converges in the long run, and the sharpness at the end is just slightly below
$2/\eta$. While many other well-understood nonconvex objectives such as matrix
factorization or two-layer networks can also converge despite large sharpness,
there is often a larger gap between sharpness of the endpoint and $2/\eta$. In
this paper, we study EoS phenomenon by constructing a simple function that has
the same behavior. We give rigorous analysis for its training dynamics in a
large local region and explain why the final converging point has sharpness
close to $2/\eta$. Globally we observe that the training dynamics for our
example has an interesting bifurcating behavior, which was also observed in the
training of neural nets.
- Abstract(参考訳): 近年、ディープ・ニューラル・ネットワークの勾配降下は'edge-of-stability' (eos) 状態で動作することが観測された: 鋭さ(ヘッセンの最大固有値)は安定性閾値 2/$\eta$ ($\eta$がステップサイズ) よりも大きいことが多い。
それにもかかわらず、損失は長期に渡り振動し収束し、最後に鋭さは2/\eta$をわずかに下回る。
行列分解や2層ネットワークのようなよく知られた非凸目的も大きな鋭さにもかかわらず収束することがあるが、エンドポイントの鋭さと2/\eta$の間には大きなギャップがあることが多い。
本稿では,同じ挙動を持つ単純な関数を構成することで,EoS現象を研究する。
大規模地域におけるトレーニングダイナミクスの厳密な分析を行い,最終収束点が2/\eta$に近い鋭さを持つ理由を説明する。
グローバルに見れば、我々の例のトレーニングダイナミクスは興味深い分岐挙動を持ち、ニューラルネットのトレーニングでも観察された。
関連論文リスト
- When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge
of Stability [8.492339290649031]
本稿では,最適化軌道に沿ったGDダイナミックスとシャープネスを解析することを目的とする。
出力層重みのノルムをシャープネスダイナミクスの興味深い指標として実証的に同定する。
本稿では,2層完全連結線形ニューラルネットワークにおけるEOSのシャープネス挙動の理論的証明について述べる。
論文 参考訳(メタデータ) (2022-07-26T06:37:58Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。