論文の概要: Field theory for optimal signal propagation in ResNets
- arxiv url: http://arxiv.org/abs/2305.07715v2
- Date: Mon, 26 Aug 2024 14:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 01:26:59.094887
- Title: Field theory for optimal signal propagation in ResNets
- Title(参考訳): ResNetにおける最適信号伝搬の場の理論
- Authors: Kirsten Fischer, David Dahmen, Moritz Helias,
- Abstract要約: 残余ネットワークは、フィードフォワードネットワークよりも大幅に訓練性と性能が向上する。
従来の研究では、残枝にスケーリングパラメータを追加することにより、一般化性能がさらに向上した。
我々は、信号伝搬とその残枝のスケーリングへの依存性を研究するために、残枝ネットワークの体系的有限サイズ場理論を導出した。
- 参考スコア(独自算出の注目度): 1.053373860696675
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Residual networks have significantly better trainability and thus performance than feed-forward networks at large depth. Introducing skip connections facilitates signal propagation to deeper layers. In addition, previous works found that adding a scaling parameter for the residual branch further improves generalization performance. While they empirically identified a particularly beneficial range of values for this scaling parameter, the associated performance improvement and its universality across network hyperparameters yet need to be understood. For feed-forward networks, finite-size theories have led to important insights with regard to signal propagation and hyperparameter tuning. We here derive a systematic finite-size field theory for residual networks to study signal propagation and its dependence on the scaling for the residual branch. We derive analytical expressions for the response function, a measure for the network's sensitivity to inputs, and show that for deep networks the empirically found values for the scaling parameter lie within the range of maximal sensitivity. Furthermore, we obtain an analytical expression for the optimal scaling parameter that depends only weakly on other network hyperparameters, such as the weight variance, thereby explaining its universality across hyperparameters. Overall, this work provides a theoretical framework to study ResNets at finite size.
- Abstract(参考訳): 残余ネットワークのトレーニング性は,フィードフォワードネットワークよりも大幅に向上した。
スキップ接続の導入により、より深い層への信号伝達が容易になる。
さらに, 余分分岐にスケーリングパラメータを追加することにより, 一般化性能がさらに向上することがわかった。
彼らは、このスケーリングパラメータの特に有用な範囲を実証的に特定したが、関連するパフォーマンス改善とネットワークハイパーパラメータ間の普遍性はまだ理解する必要がある。
フィードフォワードネットワークでは、信号伝搬とハイパーパラメータチューニングに関して、有限サイズ理論が重要な洞察を導いている。
ここでは、信号伝搬とその残留分岐のスケーリングへの依存性を研究するために、残留ネットワークの体系的有限サイズ場理論を導出する。
入力に対するネットワークの感度の指標である応答関数の解析式を導出し、深層ネットワークでは、スケーリングパラメータの実証的な値が最大感度の範囲内にあることを示す。
さらに、重み分散などの他のネットワークハイパーパラメータにのみ依存する最適スケーリングパラメータの解析式を求め、その普遍性を説明する。
全体として、この研究はResNetを有限サイズで研究するための理論的枠組みを提供する。
関連論文リスト
- On the growth of the parameters of approximating ReLU neural networks [0.542249320079018]
この研究は、与えられた滑らかな関数を近似する完全連結フィードフォワードReLUニューラルネットワークの解析に焦点を当てる。
アーキテクチャの増大にともなう,従来の普遍近似特性とは対照的に,近似ネットワークのパラメータの増大が懸念される。
論文 参考訳(メタデータ) (2024-06-21T07:45:28Z) - Regressions on quantum neural networks at maximal expressivity [0.0]
我々は、ネストした量子ビット回転の連続として構成できる普遍的な深部ニューラルネットワークの表現性を分析する。
最大表現力は、ネットワークの深さとキュービット数によって増大するが、基本的にはデータ符号化機構によって拘束される。
論文 参考訳(メタデータ) (2023-11-10T14:43:24Z) - Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and
Scaling Limit [48.291961660957384]
我々は,畳み込み型ResNetやVision Transformersなどの残余アーキテクチャが,幅と深さにまたがる最適なハイパーパラメータの転送を示すことを示す実験を行った。
ニューラルネットワーク学習力学の動的平均場理論(DMFT)記述の最近の発展から、このResNetsのパラメータ化は、無限幅および無限深度制限で明確に定義された特徴学習を許容することを示す。
論文 参考訳(メタデータ) (2023-09-28T17:20:50Z) - Universal Scaling Laws of Absorbing Phase Transitions in Artificial Deep Neural Networks [0.8932296777085644]
信号伝播ダイナミクスの位相境界付近で動作する従来の人工深層ニューラルネットワークは、カオスのエッジとしても知られ、位相遷移を吸収する普遍的なスケーリング法則を示す。
数値計算の結果,多層パーセプトロンと畳み込みニューラルネットワークはそれぞれ平均フィールドと有向パーコレーションクラスに属していることがわかった。
論文 参考訳(メタデータ) (2023-07-05T13:39:02Z) - Exploring the Complexity of Deep Neural Networks through Functional Equivalence [1.3597551064547502]
本稿では,ニューラルネットワークの複雑性を低減できることを示す,ディープニューラルネットワークの被覆数に縛られた新しい手法を提案する。
ネットワーク幅の増大により有効パラメータ空間の容量が減少するので、パラメータ化ネットワーク上でのトレーニングが容易になる傾向があるため、関数同値の利点が最適化されることを実証する。
論文 参考訳(メタデータ) (2023-05-19T04:01:27Z) - Benefits of Overparameterized Convolutional Residual Networks: Function
Approximation under Smoothness Constraint [48.25573695787407]
大規模なConvResNetは関数の値から目的関数を近似できるだけでなく、一階スムーズ性も十分に発揮できることを示す。
我々の理論は、実際にディープ・ワイド・ネットワークを使うことの利点を部分的に正当化している。
論文 参考訳(メタデータ) (2022-06-09T15:35:22Z) - Towards Understanding Theoretical Advantages of Complex-Reaction
Networks [77.34726150561087]
パラメータ数を用いて,関数のクラスを複素反応ネットワークで近似できることを示す。
経験的リスク最小化については,複素反応ネットワークの臨界点集合が実数値ネットワークの固有部分集合であることを示す。
論文 参考訳(メタデータ) (2021-08-15T10:13:49Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。