Fugu-MT 論文翻訳(概要): Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks

論文の概要: Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks

arxiv url: http://arxiv.org/abs/2305.12467v5
Date: Wed, 27 Dec 2023 12:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 23:00:17.983360
Title: Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks
Title（参考訳）: ReLUネットワークの多相最適化ダイナミクスとリッチ非線形挙動の理解
Authors: Mingze Wang, Chao Ma
Abstract要約: 線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
参考スコア（独自算出の注目度）: 8.180184504355571
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The training process of ReLU neural networks often exhibits complicated nonlinear phenomena. The nonlinearity of models and non-convexity of loss pose significant challenges for theoretical analysis. Therefore, most previous theoretical works on the optimization dynamics of neural networks focus either on local analysis (like the end of training) or approximate linear models (like Neural Tangent Kernel). In this work, we conduct a complete theoretical characterization of the training process of a two-layer ReLU network trained by Gradient Flow on a linearly separable data. In this specific setting, our analysis captures the whole optimization process starting from random initialization to final convergence. Despite the relatively simple model and data that we studied, we reveal four different phases from the whole training process showing a general simplifying-to-complicating learning trend. Specific nonlinear behaviors can also be precisely identified and captured theoretically, such as initial condensation, saddle-to-plateau dynamics, plateau escape, changes of activation patterns, learning with increasing complexity, etc.
Abstract（参考訳）: ReLUニューラルネットワークのトレーニングプロセスはしばしば複雑な非線形現象を示す。モデルの非線形性と損失の非凸性は理論解析に重大な課題をもたらす。したがって、ニューラルネットワークの最適化力学に関するこれまでの理論研究は、局所解析(訓練終了など)や近似線形モデル(ニューラル・タンジェント・カーネルなど)に重点を置いていた。本研究では, 線形分離可能なデータに基づいて, グラディエントフローにより学習した2層ReLUネットワークの学習過程を理論的に解析する。この特定の環境では、ランダム初期化から最終収束までの最適化過程全体を解析する。研究した比較的単純なモデルとデータにもかかわらず、学習プロセス全体とは4つの異なるフェーズがあることがわかりました。特定の非線形挙動は、初期凝縮、サドル・トゥ・プラトー力学、プラトーエスケープ、活性化パターンの変化、複雑さの増加による学習など、理論的に正確に識別・捕獲することができる。

関連論文リスト

Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文参考訳（メタデータ） (2025-06-16T06:54:08Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks [12.061229162870513]
2層ニューラルネットワークのトレーニング力学について検討する。トレーニングダイナミクスにはいくつかの新しい現象がある。これらには、ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現が含まれる。
論文参考訳（メタデータ） (2025-02-28T17:45:26Z)
Recurrent Stochastic Configuration Networks with Hybrid Regularization for Nonlinear Dynamics Modelling [3.8719670789415925]
リカレント・コンフィグレーション・ネットワーク(RSCN)は不確実性のある非線形力学系をモデル化する大きな可能性を示している。本稿では,ネットワークの学習能力と一般化性能を両立させるために,ハイブリッド正規化を備えたRCCNを提案する。
論文参考訳（メタデータ） (2024-11-26T03:06:39Z)
Absence of Closed-Form Descriptions for Gradient Flow in Two-Layer Narrow Networks [0.8158530638728501]
2層狭帯域ネットワークにおける勾配流の力学は可積分系ではないことを示す。穏やかな条件下では、勾配流の変分方程式の微分ガロア群の恒等成分は解けない。この結果はシステムの非可積分性を確認し、トレーニング力学がリウヴィリア函数で表現できないことを示唆している。
論文参考訳（メタデータ） (2024-08-15T17:40:11Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Physics Informed Piecewise Linear Neural Networks for Process Optimization [0.0]
ニューラルネットワークモデルに埋め込まれた最適化問題に対して,物理情報を用いた線形ニューラルネットワークモデルの更新が提案されている。すべてのケースにおいて、物理インフォームドトレーニングニューラルネットワークに基づく最適結果は、大域的最適性に近い。
論文参考訳（メタデータ） (2023-02-02T10:14:54Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
A purely data-driven framework for prediction, optimization, and control of networked processes: application to networked SIS epidemic model [0.8287206589886881]
我々は,大規模ネットワーク上での非線形力学の同定と制御を行う演算子理論に基づくデータ駆動型フレームワークを開発した。提案手法では、ネットワーク構造に関する事前の知識は必要とせず、状態の2段階のスナップショットのみを用いて基礎となるダイナミクスを識別する。
論文参考訳（メタデータ） (2021-08-01T03:57:10Z)
Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文参考訳（メタデータ） (2021-07-20T12:17:55Z)
Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2020-10-26T11:31:08Z)
DynNet: Physics-based neural architecture design for linear and nonlinear structural response modeling and prediction [2.572404739180802]
本研究では,線形および非線形な多自由度系の力学を学習できる物理に基づくリカレントニューラルネットワークモデルを提案する。このモデルは、変位、速度、加速度、内部力を含む完全な応答のセットを推定することができる。
論文参考訳（メタデータ） (2020-07-03T17:05:35Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。