論文の概要: From Stability to Chaos: Analyzing Gradient Descent Dynamics in
Quadratic Regression
- arxiv url: http://arxiv.org/abs/2310.01687v1
- Date: Mon, 2 Oct 2023 22:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:29:33.936764
- Title: From Stability to Chaos: Analyzing Gradient Descent Dynamics in
Quadratic Regression
- Title(参考訳): 安定性からカオスへ:二次回帰における勾配降下ダイナミクスの解析
- Authors: Xuxing Chen, Krishnakumar Balasubramanian, Promit Ghosal, Bhavya
Agrawalla
- Abstract要約: 本研究では2次回帰モデルの文脈における高次定数ステップサイズを用いた勾配降下のダイナミクスについて検討する。
1) 単調, (2) カタパルト, (3) 周期, (4) カオス, (5) 発散の5つの異なる訓練段階を列挙した。
特に,エルゴード軌道平均化は非単調(および非発散)相における試験誤差を安定化させる。
- 参考スコア(独自算出の注目度): 14.521929085104441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct a comprehensive investigation into the dynamics of gradient
descent using large-order constant step-sizes in the context of quadratic
regression models. Within this framework, we reveal that the dynamics can be
encapsulated by a specific cubic map, naturally parameterized by the step-size.
Through a fine-grained bifurcation analysis concerning the step-size parameter,
we delineate five distinct training phases: (1) monotonic, (2) catapult, (3)
periodic, (4) chaotic, and (5) divergent, precisely demarcating the boundaries
of each phase. As illustrations, we provide examples involving phase retrieval
and two-layer neural networks employing quadratic activation functions and
constant outer-layers, utilizing orthogonal training data. Our simulations
indicate that these five phases also manifest with generic non-orthogonal data.
We also empirically investigate the generalization performance when training in
the various non-monotonic (and non-divergent) phases. In particular, we observe
that performing an ergodic trajectory averaging stabilizes the test error in
non-monotonic (and non-divergent) phases.
- Abstract(参考訳): 本研究では,2次回帰モデルの文脈における高次定数ステップサイズを用いた勾配降下のダイナミクスを包括的に研究する。
このフレームワーク内では、ダイナミックスを特定の立方体マップにカプセル化でき、ステップサイズによって自然にパラメータ化することができる。
ステップサイズパラメータに関する細粒度分岐解析により,(1)単調,(2)カタパルト,(3)周期,(4)カオス,(5)分岐の5つの異なる訓練位相を,各位相の境界を正確に決定する。
例として,直交学習データを用いて,二次活性化関数と定数外層を用いた位相検索と2層ニューラルネットワークの例を示す。
シミュレーションの結果,これら5つの相は一般の非直交データでも現れることがわかった。
また, 各種非単調(および非発振)位相のトレーニングにおける一般化性能を実験的に検討した。
特に,エルゴード軌道平均化は非単調(および非発散)相における試験誤差を安定化させる。
関連論文リスト
- Cascade of phase transitions in the training of Energy-based models [9.945465034701288]
原型エネルギーベース生成モデルBernoulli-Bernoulli RBMの特徴符号化過程について検討した。
本研究は、その特異値分解によるモデルの重み行列の進化をトラックする。
我々はBernoulli-Bernoulli RBMを実データ集合上でトレーニングすることで理論的結果を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:25:56Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Neural network analysis of neutron and X-ray reflectivity data:
Incorporating prior knowledge for tackling the phase problem [141.5628276096321]
本稿では,事前知識を利用して,より大規模なパラメータ空間上でのトレーニングプロセスを標準化する手法を提案する。
ボックスモデルパラメータ化を用いた多層構造を含む様々なシナリオにおいて,本手法の有効性を示す。
従来の手法とは対照的に,逆問題の複雑性を増大させると,我々の手法は好適にスケールする。
論文 参考訳(メタデータ) (2023-06-28T11:15:53Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Topological correlations in three dimensional classical Ising models: an
exact solution with a continuous phase transition [8.83889166043817]
我々は、あるカップリング定数がある虚数値を取るとき、正確に解ける3次元古典イジングモデルについて研究する。
実カップリング定数を持つ、密解可能な3次元古典的統計モデルもまた、これらの相の位相的特徴を示す。
論文 参考訳(メタデータ) (2022-02-23T04:22:30Z) - Topological transitions with continuously monitored free fermions [68.8204255655161]
ストロボスコープ投影回路で観測されるものと異なる普遍性クラスである位相相転移の存在を示す。
この絡み合い遷移は、両部エンタングルメントエントロピーと位相エンタングルメントエントロピーの組合せによってよく同定される。
論文 参考訳(メタデータ) (2021-12-17T22:01:54Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Phases of learning dynamics in artificial neural networks: with or
without mislabeled data [3.3576886095389296]
ニューラルネットワークにおける学習を駆動する勾配降下のダイナミクスについて研究する。
ラベルを間違えたデータがないと、SGD学習のダイナミクスは高速な学習段階から遅い探索段階へと移行する。
2つのデータセットの個々のサンプル損失は、フェーズIIで最も分離されている。
論文 参考訳(メタデータ) (2021-01-16T19:44:27Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。