論文の概要: Second-order regression models exhibit progressive sharpening to the
edge of stability
- arxiv url: http://arxiv.org/abs/2210.04860v1
- Date: Mon, 10 Oct 2022 17:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:00:26.860216
- Title: Second-order regression models exhibit progressive sharpening to the
edge of stability
- Title(参考訳): 2次回帰モデルによる安定性のエッジへの漸進的シャープ化
- Authors: Atish Agarwala, Fabian Pedregosa, and Jeffrey Pennington
- Abstract要約: 2次元の二次目標に対して、2階回帰モデルでは、安定性の端とわずかに異なる値に対して進行的なシャープ化を示すことを示す。
より高次元では、モデルはニューラルネットワークの特定の構造がなくても、概して同様の振る舞いを示す。
- 参考スコア(独自算出の注目度): 30.92413051155244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies of gradient descent with large step sizes have shown that
there is often a regime with an initial increase in the largest eigenvalue of
the loss Hessian (progressive sharpening), followed by a stabilization of the
eigenvalue near the maximum value which allows convergence (edge of stability).
These phenomena are intrinsically non-linear and do not happen for models in
the constant Neural Tangent Kernel (NTK) regime, for which the predictive
function is approximately linear in the parameters. As such, we consider the
next simplest class of predictive models, namely those that are quadratic in
the parameters, which we call second-order regression models. For quadratic
objectives in two dimensions, we prove that this second-order regression model
exhibits progressive sharpening of the NTK eigenvalue towards a value that
differs slightly from the edge of stability, which we explicitly compute. In
higher dimensions, the model generically shows similar behavior, even without
the specific structure of a neural network, suggesting that progressive
sharpening and edge-of-stability behavior aren't unique features of neural
networks, and could be a more general property of discrete learning algorithms
in high-dimensional non-linear models.
- Abstract(参考訳): 近年のステップサイズの大きな勾配降下の研究では、損失ヘッシアンの最大固有値(漸進的シャープニング)を初期値で上昇させるレジームがしばしば存在し、さらに最大値付近の固有値の安定化により収束(安定性の限界)が達成される。
これらの現象は本質的に非線形であり、パラメータの予測関数がほぼ線形である定数ニューラル・タンジェント・カーネル(NTK)のモデルでは発生しない。
したがって、次の最も単純な予測モデルのクラス、すなわち2階回帰モデルと呼ばれるパラメータの二次的なクラスを考える。
2次元の二次的目的に対して、この2階回帰モデルが、安定性の端とわずかに異なる値に対してNTK固有値の漸進的なシャープ化を示すことを示す。
より高次元では、モデルはニューラルネットワークの特定の構造がなくても、一般的な振る舞いを示し、プログレッシブ・シャープニングとエッジ・オブ・ステイビリティの振る舞いはニューラルネットワークのユニークな特徴ではなく、高次元非線形モデルにおける離散学習アルゴリズムのより一般的な性質である可能性を示唆している。
関連論文リスト
- Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文 参考訳(メタデータ) (2024-06-11T03:07:41Z) - Neural Abstractions [72.42530499990028]
本稿では,ニューラルネットワークを用いた非線形力学モデルの安全性検証手法を提案する。
提案手法は,既存のベンチマーク非線形モデルにおいて,成熟度の高いFlow*と同等に動作することを示す。
論文 参考訳(メタデータ) (2023-01-27T12:38:09Z) - Linear Stability Hypothesis and Rank Stratification for Nonlinear Models [3.0041514772139166]
モデルランクを「パラメータの有効サイズ」として発見するための一般非線形モデルのためのランク階層化を提案する。
これらの結果から、目標関数のモデルランクは、その回復を成功させるために、最小限のトレーニングデータサイズを予測する。
論文 参考訳(メタデータ) (2022-11-21T16:27:25Z) - Improving Generalization via Uncertainty Driven Perturbations [107.45752065285821]
トレーニングデータポイントの不確実性による摂動について考察する。
損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えてはならない。
線形モデルにおいて,UDPがロバスト性マージン決定を達成することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:22:08Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - A Convex Parameterization of Robust Recurrent Neural Networks [3.2872586139884623]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャル・ツー・シーケンス・マップをモデル化するのによく用いられる非線形力学系のクラスである。
安定性とロバスト性を保証するRNNの凸集合を定式化する。
論文 参考訳(メタデータ) (2020-04-11T03:12:42Z) - Dimension Independent Generalization Error by Stochastic Gradient
Descent [12.474236773219067]
本稿では, 局所凸損失関数に対する降下(SGD)解の一般化誤差に関する理論を提案する。
一般化誤差は$p$次元に依存したり、低効用$p$対数因子に依存しないことを示す。
論文 参考訳(メタデータ) (2020-03-25T03:08:41Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。