論文の概要: Empirical Phase Diagram for Three-layer Neural Networks with Infinite
Width
- arxiv url: http://arxiv.org/abs/2205.12101v1
- Date: Tue, 24 May 2022 14:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:51:55.965104
- Title: Empirical Phase Diagram for Three-layer Neural Networks with Infinite
Width
- Title(参考訳): 無限幅3層ニューラルネットワークの経験的位相図
- Authors: Hanxu Zhou, Qixuan Zhou, Zhenyuan Jin, Tao Luo, Yaoyu Zhang, Zhi-Qin
John Xu
- Abstract要約: 我々は3層ReLU NNの位相図を無限幅で描画する。
合成データセットと実データセットの両方の場合、各層の力学は線形状態と凝縮状態に分けることができる。
また, 凝縮状態においては, 重みの縮合を, 複雑さの低い孤立配向で観察する。
- 参考スコア(独自算出の注目度): 5.206156813130247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Substantial work indicates that the dynamics of neural networks (NNs) is
closely related to their initialization of parameters. Inspired by the phase
diagram for two-layer ReLU NNs with infinite width (Luo et al., 2021), we make
a step towards drawing a phase diagram for three-layer ReLU NNs with infinite
width. First, we derive a normalized gradient flow for three-layer ReLU NNs and
obtain two key independent quantities to distinguish different dynamical
regimes for common initialization methods. With carefully designed experiments
and a large computation cost, for both synthetic datasets and real datasets, we
find that the dynamics of each layer also could be divided into a linear regime
and a condensed regime, separated by a critical regime. The criteria is the
relative change of input weights (the input weight of a hidden neuron consists
of the weight from its input layer to the hidden neuron and its bias term) as
the width approaches infinity during the training, which tends to $0$,
$+\infty$ and $O(1)$, respectively. In addition, we also demonstrate that
different layers can lie in different dynamical regimes in a training process
within a deep NN. In the condensed regime, we also observe the condensation of
weights in isolated orientations with low complexity. Through experiments under
three-layer condition, our phase diagram suggests a complicated dynamical
regimes consisting of three possible regimes, together with their mixture, for
deep NNs and provides a guidance for studying deep NNs in different
initialization regimes, which reveals the possibility of completely different
dynamics emerging within a deep NN for its different layers.
- Abstract(参考訳): 実質的な研究は、ニューラルネットワーク(NN)のダイナミクスがパラメータの初期化と密接に関連していることを示している。
無限幅の2層ReLU NNの位相図(Luo et al., 2021)に着想を得て, 無限幅の3層ReLU NNの位相図を作成する。
まず, 3層relu nnの正規化勾配流を導出し, 共通初期化法で異なる動的レジームを識別するための2つのキー独立量を得る。
慎重に設計された実験と大規模な計算コストにより、合成データセットと実データセットの両方において、各層の力学も線形状態と凝縮状態に分けることができ、臨界状態によって分離される。
基準は入力重み(隠れたニューロンの入力重みは入力層から隠れたニューロンへの重みとバイアス項からなる)の相対的な変化であり、トレーニング中に幅が無限に近づくとそれぞれ$0$、$+\infty$、$o(1)$となる。
さらに,深層nn内のトレーニングプロセスにおいて,異なるレイヤが異なる動的レジームに存在することを実証する。
凝縮系では,低複雑性の孤立方向における重みの凝縮も観察する。
3層条件下での実験を通して, 相図は, 深層NNの3つの可能な状態と混合された状態からなる複雑な動的状態を示し, 異なる初期化状態における深部NNの研究のためのガイダンスを提供する。
関連論文リスト
- Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Systematic construction of continuous-time neural networks for linear dynamical systems [0.0]
本稿では,動的システムのサブクラスをモデル化するためのニューラルネットワーク構築の体系的アプローチについて論じる。
我々は、各ニューロンの出力が1次または2次常微分方程式(ODE)の解として連続的に進化する連続時間ニューラルネットワークの変種を用いる。
データからネットワークアーキテクチャとパラメータを導出する代わりに、所定のLTIシステムから直接スパースアーキテクチャとネットワークパラメータを計算するための勾配のないアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-24T16:16:41Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Hybrid-Layers Neural Network Architectures for Modeling the
Self-Interference in Full-Duplex Systems [23.55330151898652]
フル分析(FD)システムは、周波数リソースを介して情報を同時送信する。
本稿では、低複雑性でローカライズされた2つの新しいハイブリッド層ニューラルネットワーク(NN)アーキテクチャを提案する。
提案されたNNは、隠れた層(例えば密度の高い層)を組み合わせて、最先端のNNベースのキャンセラよりも計算複雑性の低いSIをモデル化する。
論文 参考訳(メタデータ) (2021-10-18T14:18:56Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。