論文の概要: Phase diagram for two-layer ReLU neural networks at infinite-width limit
- arxiv url: http://arxiv.org/abs/2007.07497v2
- Date: Tue, 13 Oct 2020 05:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 04:53:36.337552
- Title: Phase diagram for two-layer ReLU neural networks at infinite-width limit
- Title(参考訳): 無限幅限界における2層ReLUニューラルネットワークの位相図
- Authors: Tao Luo, Zhi-Qin John Xu, Zheng Ma, Yaoyu Zhang
- Abstract要約: 我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
- 参考スコア(独自算出の注目度): 6.380166265263755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How neural network behaves during the training over different choices of
hyperparameters is an important question in the study of neural networks. In
this work, inspired by the phase diagram in statistical mechanics, we draw the
phase diagram for the two-layer ReLU neural network at the infinite-width limit
for a complete characterization of its dynamical regimes and their dependence
on hyperparameters related to initialization. Through both experimental and
theoretical approaches, we identify three regimes in the phase diagram, i.e.,
linear regime, critical regime and condensed regime, based on the relative
change of input weights as the width approaches infinity, which tends to $0$,
$O(1)$ and $+\infty$, respectively. In the linear regime, NN training dynamics
is approximately linear similar to a random feature model with an exponential
loss decay. In the condensed regime, we demonstrate through experiments that
active neurons are condensed at several discrete orientations. The critical
regime serves as the boundary between above two regimes, which exhibits an
intermediate nonlinear behavior with the mean-field model as a typical example.
Overall, our phase diagram for the two-layer ReLU NN serves as a map for the
future studies and is a first step towards a more systematical investigation of
the training behavior and the implicit regularization of NNs of different
structures.
- Abstract(参考訳): ハイパーパラメータの異なる選択に対するトレーニング中にニューラルネットワークがどのように振る舞うかは、ニューラルネットワークの研究において重要な問題である。
この研究は、統計力学の位相図に着想を得て、2層ReLUニューラルネットワークの位相図を無限幅の極限で描き、その動的状態とその初期化に関するハイパーパラメータへの依存性の完全な評価を行う。
実験と理論の両方のアプローチを通じて、入力重みの相対的変化に基づいて位相図中の3つのレジーム、すなわち線形レジーム、臨界レジーム、凝縮レジームを識別し、それぞれ$0$,$o(1)$,$+\infty$となる。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮系では、活性ニューロンが複数の離散的な方向で凝縮されることを実験を通して実証する。
臨界レジームは上述の2つのレジームの境界として機能し、平均場モデルが典型的な例として中間非線形挙動を示す。
概して、2層式ReLU NNの位相図は将来の研究の地図として機能し、異なる構造のトレーニング行動と暗黙の規則化に関するより体系的な研究への第一歩である。
関連論文リスト
- Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Empirical Phase Diagram for Three-layer Neural Networks with Infinite
Width [5.206156813130247]
我々は3層ReLU NNの位相図を無限幅で描画する。
合成データセットと実データセットの両方の場合、各層の力学は線形状態と凝縮状態に分けることができる。
また, 凝縮状態においては, 重みの縮合を, 複雑さの低い孤立配向で観察する。
論文 参考訳(メタデータ) (2022-05-24T14:27:31Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - The Quenching-Activation Behavior of the Gradient Descent Dynamics for
Two-layer Neural Network Models [12.865834066050427]
2層ニューラルネットワークモデルのトレーニングのための勾配降下アルゴリズムについて検討した。
低パラメトリケート状態におけるGDの動的挙動の2つの相について検討した。
クエンチング・アクティベーションプロセスは「単純正則化」の明確なメカニズムを提供するようである
論文 参考訳(メタデータ) (2020-06-25T14:41:53Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。