論文の概要: Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks
- arxiv url: http://arxiv.org/abs/2305.12467v3
- Date: Thu, 19 Oct 2023 11:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:19:43.385065
- Title: Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks
- Title(参考訳): ReLUネットワークの多相最適化ダイナミクスとリッチ非線形挙動の理解
- Authors: Mingze Wang, Chao Ma
- Abstract要約: 線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。
学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。
特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
- 参考スコア(独自算出の注目度): 8.180184504355571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training process of ReLU neural networks often exhibits complicated
nonlinear phenomena. The nonlinearity of models and non-convexity of loss pose
significant challenges for theoretical analysis. Therefore, most previous
theoretical works on the optimization dynamics of neural networks focus either
on local analysis (like the end of training) or approximate linear models (like
Neural Tangent Kernel). In this work, we conduct a complete theoretical
characterization of the training process of a two-layer ReLU network trained by
Gradient Flow on a linearly separable data. In this specific setting, our
analysis captures the whole optimization process starting from random
initialization to final convergence. Despite the relatively simple model and
data that we studied, we reveal four different phases from the whole training
process showing a general simplifying-to-complicating learning trend. Specific
nonlinear behaviors can also be precisely identified and captured
theoretically, such as initial condensation, saddle-to-plateau dynamics,
plateau escape, changes of activation patterns, learning with increasing
complexity, etc.
- Abstract(参考訳): ReLUニューラルネットワークのトレーニングプロセスはしばしば複雑な非線形現象を示す。
モデルの非線形性と損失の非凸性は理論解析に重大な課題をもたらす。
したがって、ニューラルネットワークの最適化力学に関するこれまでの理論研究は、局所解析(訓練終了など)や近似線形モデル(ニューラル・タンジェント・カーネルなど)に重点を置いていた。
本研究では, 線形分離可能なデータに基づいて, グラディエントフローにより学習した2層ReLUネットワークの学習過程を理論的に解析する。
この特定の環境では、ランダム初期化から最終収束までの最適化過程全体を解析する。
研究した比較的単純なモデルとデータにもかかわらず、学習プロセス全体とは4つの異なるフェーズがあることがわかりました。
特定の非線形挙動は、初期凝縮、サドル・トゥ・プラトー力学、プラトーエスケープ、活性化パターンの変化、複雑さの増加による学習など、理論的に正確に識別・捕獲することができる。
関連論文リスト
- Absence of Closed-Form Descriptions for Gradient Flow in Two-Layer Narrow Networks [0.8158530638728501]
2層狭帯域ネットワークにおける勾配流の力学は可積分系ではないことを示す。
穏やかな条件下では、勾配流の変分方程式の微分ガロア群の恒等成分は解けない。
この結果はシステムの非可積分性を確認し、トレーニング力学がリウヴィリア函数で表現できないことを示唆している。
論文 参考訳(メタデータ) (2024-08-15T17:40:11Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Physics Informed Piecewise Linear Neural Networks for Process
Optimization [0.0]
ニューラルネットワークモデルに埋め込まれた最適化問題に対して,物理情報を用いた線形ニューラルネットワークモデルの更新が提案されている。
すべてのケースにおいて、物理インフォームドトレーニングニューラルネットワークに基づく最適結果は、大域的最適性に近い。
論文 参考訳(メタデータ) (2023-02-02T10:14:54Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - A purely data-driven framework for prediction, optimization, and control
of networked processes: application to networked SIS epidemic model [0.8287206589886881]
我々は,大規模ネットワーク上での非線形力学の同定と制御を行う演算子理論に基づくデータ駆動型フレームワークを開発した。
提案手法では、ネットワーク構造に関する事前の知識は必要とせず、状態の2段階のスナップショットのみを用いて基礎となるダイナミクスを識別する。
論文 参考訳(メタデータ) (2021-08-01T03:57:10Z) - Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文 参考訳(メタデータ) (2021-07-20T12:17:55Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - DynNet: Physics-based neural architecture design for linear and
nonlinear structural response modeling and prediction [2.572404739180802]
本研究では,線形および非線形な多自由度系の力学を学習できる物理に基づくリカレントニューラルネットワークモデルを提案する。
このモデルは、変位、速度、加速度、内部力を含む完全な応答のセットを推定することができる。
論文 参考訳(メタデータ) (2020-07-03T17:05:35Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。