論文の概要: Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit
- arxiv url: http://arxiv.org/abs/2110.15596v1
- Date: Fri, 29 Oct 2021 07:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:43:34.997943
- Title: Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit
- Title(参考訳): 無限幅極限におけるディープニューラルネットワークの学習可積分パラメータ化
- Authors: Karl Hajjar (LMO, CELESTE), L\'ena\"ic Chizat (LMO), Christophe Giraud
(LMO)
- Abstract要約: 大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To theoretically understand the behavior of trained deep neural networks, it
is necessary to study the dynamics induced by gradient methods from a random
initialization. However, the nonlinear and compositional structure of these
models make these dynamics difficult to analyze. To overcome these challenges,
large-width asymptotics have recently emerged as a fruitful viewpoint and led
to practical insights on real-world deep networks. For two-layer neural
networks, it has been understood via these asymptotics that the nature of the
trained model radically changes depending on the scale of the initial random
weights, ranging from a kernel regime (for large initial variance) to a feature
learning regime (for small initial variance). For deeper networks more regimes
are possible, and in this paper we study in detail a specific choice of "small"
initialization corresponding to ''mean-field'' limits of neural networks, which
we call integrable parameterizations (IPs). First, we show that under standard
i.i.d. zero-mean initialization, integrable parameterizations of neural
networks with more than four layers start at a stationary point in the
infinite-width limit and no learning occurs. We then propose various methods to
avoid this trivial behavior and analyze in detail the resulting dynamics. In
particular, one of these methods consists in using large initial learning
rates, and we show that it is equivalent to a modification of the recently
proposed maximal update parameterization $\mu$P. We confirm our results with
numerical experiments on image classification tasks, which additionally show a
strong difference in behavior between various choices of activation functions
that is not yet captured by theory.
- Abstract(参考訳): 訓練された深層ニューラルネットワークの挙動を理論的に理解するには、ランダムな初期化から勾配法によって誘導されるダイナミクスを研究する必要がある。
しかし、これらのモデルの非線形構造と構成構造は、これらの力学を解析しにくくする。
これらの課題を克服するために、近年、大きな幅の漸近が実りある視点として現れ、現実世界のディープネットワークに関する実践的な洞察をもたらした。
2層ニューラルネットワークの場合、トレーニングされたモデルの性質は、初期ランダムウェイトのスケールによって劇的に変化し、カーネルレジーム(大きな初期分散)から特徴学習レジーム(小さな初期分散)まで変化することが、これらの漸近論を通じて理解されている。
より深いネットワークでは、より多くのレジームが可能であり、本論文では、統合可能なパラメータ化(ips)と呼ばれるニューラルネットワークの'平均場'制限に対応する「小さな」初期化の特定の選択について詳細に研究する。
まず、ゼロ平均初期化の標準の下で、4層以上のニューラルネットワークの可積分パラメータ化は無限幅制限の定常点から始まり、学習は起こらないことを示す。
次に,この自明な挙動を回避し,得られたダイナミクスを詳細に解析する手法を提案する。
特に、これらの手法の1つは、大きな初期学習率を用いて構成されており、最近提案された最大更新パラメータ化$\mu$Pと等価であることを示す。
本研究は画像分類タスクに関する数値実験で確認し, 理論上はまだ捉えられていない活性化関数の様々な選択の挙動に強い差異を示す。
関連論文リスト
- Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis [5.016205338484259]
提案手法は既存手法よりもネットワークサイズの変化に頑健である。
物理インフォームドニューラルネットワークに適用すると、ネットワークサイズの変化に対するより高速な収束とロバスト性を示す。
論文 参考訳(メタデータ) (2024-10-03T06:30:27Z) - Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-04-07T08:07:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - A Shooting Formulation of Deep Learning [19.51427735087011]
本稿では,ネットワーク層ごとのパラメータ化から,最適ネットワーク上でのパラメータ化へと視点を転換するシューティング定式化を提案する。
拡張性のために,連続深度ニューラルネットワークの最適重み軌跡を同定する新しい粒子アンサンブルパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2020-06-18T07:36:04Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。