論文の概要: On residual network depth
- arxiv url: http://arxiv.org/abs/2510.03470v1
- Date: Fri, 03 Oct 2025 19:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.06015
- Title: On residual network depth
- Title(参考訳): 残留ネットワーク深さについて
- Authors: Benoit Dherin, Michael Munn,
- Abstract要約: ネットワーク深度の増加は,暗黙のアンサンブルの大きさの拡大と数学的に等価であることを示す。
我々の研究は、ネットワーク固有の機能構造から導かれた最初の説明を提供する。
さらに、このスケーリングは、モデルの複雑さを暗黙的に規則化するキャパシティコントロールとして機能することを示す。
- 参考スコア(独自算出の注目度): 7.233401307469166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep residual architectures, such as ResNet and the Transformer, have enabled models of unprecedented depth, yet a formal understanding of why depth is so effective remains an open question. A popular intuition, following Veit et al. (2016), is that these residual networks behave like ensembles of many shallower models. Our key finding is an explicit analytical formula that verifies this ensemble perspective, proving that increasing network depth is mathematically equivalent to expanding the size of this implicit ensemble. Furthermore, our expansion reveals a hierarchical ensemble structure in which the combinatorial growth of computation paths leads to an explosion in the output signal, explaining the historical necessity of normalization layers in training deep models. This insight offers a first principles explanation for the historical dependence on normalization layers and sheds new light on a family of successful normalization-free techniques like SkipInit and Fixup. However, while these previous approaches infer scaling factors through optimizer analysis or a heuristic analogy to Batch Normalization, our work offers the first explanation derived directly from the network's inherent functional structure. Specifically, our Residual Expansion Theorem reveals that scaling each residual module provides a principled solution to taming the combinatorial explosion inherent to these architectures. We further show that this scaling acts as a capacity controls that also implicitly regularizes the model's complexity.
- Abstract(参考訳): ResNetやTransformerのような深い残余アーキテクチャは、前例のない深さのモデルを可能にするが、なぜ深さがこれほど効果的かという公式な理解は、未解決の問題のままである。
Veit et al (2016)に続く一般的な直観は、これらの残余ネットワークは、多くの浅いモデルのアンサンブルのように振る舞うことである。
我々の重要な発見は、このアンサンブルの観点を検証する明示的な分析公式であり、ネットワーク深度の増加は、この暗黙のアンサンブルのサイズの拡大と数学的に等価であることを証明している。
さらに,計算経路の組合せ成長が出力信号の爆発を引き起こす階層的なアンサンブル構造を明らかにし,深層モデルのトレーニングにおいて正規化層が歴史的に必要であったことを説明する。
この洞察は、正規化層への歴史的依存に関する最初の原則の説明を提供し、SkipInitやFixupのような正常化なしのテクニックを成功させたファミリに新たな光を放つ。
しかしながら、これらの従来の手法は、オプティマイザ解析やバッチ正規化のヒューリスティックなアナロジーを通じてスケーリング因子を推論するが、本研究はネットワーク固有の機能構造から直接導かれる最初の説明を提供する。
特に、Residual Expansion Theoremは、各残余モジュールのスケーリングが、これらのアーキテクチャに固有の組合せ的爆発に対処するための原則的なソリューションを提供することを示した。
さらに、このスケーリングは、モデルの複雑さを暗黙的に規則化するキャパシティコントロールとして機能することを示す。
関連論文リスト
- Optimal Depth of Neural Networks [2.1756081703276]
本稿では,ニューラルネットワークの最適深さの決定に対処する公式な理論的枠組みを提案する。
我々は、シーケンシャルな決定プロセスとして、隠蔽表現の層間進化をモデル化する。
本稿では,ネットワークが効率よく早期終了可能な表現を学習することを奨励する,新規で実用的な正規化用語である$mathcalL_rm depth$を提案する。
論文 参考訳(メタデータ) (2025-06-20T09:26:01Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Out-of-distributional risk bounds for neural operators with applications
to the Helmholtz equation [6.296104145657063]
既存のニューラル演算子(NO)は、全ての物理問題に対して必ずしもうまく機能しない。
非線形作用素の波動速度を解にマッピングする実験的な近似を可能にするNOのサブファミリーを提案する。
本実験は, 深度導入の一般化と関連性において, ある種のサプライズを明らかにするものである。
我々は、NOsのサブファミリーのハイパーネットワークバージョンを、前述のフォワード演算子のサロゲートモデルとして提案することで結論付ける。
論文 参考訳(メタデータ) (2023-01-27T03:02:12Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Scaling ResNets in the Large-depth Regime [11.374578778690623]
Deep ResNetは、機械学習タスクで最先端の結果を達成するために認識されている。
Deep ResNetsは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
論文 参考訳(メタデータ) (2022-06-14T15:49:10Z) - Generalization by design: Shortcuts to Generalization in Deep Learning [7.751691910877239]
よい一般化は、新しい幾何正則化器につながる層上の有界スペクトル積によってもたらされることを示す。
理論によって裏付けられ、我々は「設計による一般化」が現実的に可能であり、優れた一般化がネットワークの構造にコード化されることをさらに実証する。
論文 参考訳(メタデータ) (2021-07-05T20:01:23Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。