論文の概要: Commutative Width and Depth Scaling in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2310.01683v1
- Date: Mon, 2 Oct 2023 22:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:28:26.339646
- Title: Commutative Width and Depth Scaling in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける可換幅と深度スケーリング
- Authors: Soufiane Hayou
- Abstract要約: 本論文は,深部ニューラルネットワークにおける無限幅および深度限界の可換性に関するシリーズの2番目である。
我々は、正式に可換性フレームワークを導入、定義し、ニューラルネットワークの設計とスケーリングにその影響について論じる。
- 参考スコア(独自算出の注目度): 6.019182604573028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is the second in the series Commutative Scaling of Width and Depth
(WD) about commutativity of infinite width and depth limits in deep neural
networks. Our aim is to understand the behaviour of neural functions (functions
that depend on a neural network model) as width and depth go to infinity (in
some sense), and eventually identify settings under which commutativity holds,
i.e. the neural function tends to the same limit no matter how width and depth
limits are taken. In this paper, we formally introduce and define the
commutativity framework, and discuss its implications on neural network design
and scaling. We study commutativity for the neural covariance kernel which
reflects how network layers separate data. Our findings extend previous results
established in [55] by showing that taking the width and depth to infinity in a
deep neural network with skip connections, when branches are suitably scaled to
avoid exploding behaviour, result in the same covariance structure no matter
how that limit is taken. This has a number of theoretical and practical
implications that we discuss in the paper. The proof techniques in this paper
are novel and rely on tools that are more accessible to readers who are not
familiar with stochastic calculus (used in the proofs of WD(I))).
- Abstract(参考訳): 本稿では,深部ニューラルネットワークにおける無限幅および深度制限の可換性について,Cultative Scaling of Width and Depth (WD)シリーズの第2弾となる。
私たちの目標は、幅と深さが(ある意味では)無限になるにつれて、ニューラルネットワーク(ニューラルネットワークモデルに依存する関数)の挙動を理解し、最終的に可換性が保持する設定、すなわち、どの幅と深さ制限が取られても、神経関数は同じ制限を受ける傾向があることを識別することにあります。
本稿では,可換性フレームワークを正式に導入,定義し,ニューラルネットワークの設計とスケーリングに与える影響について論じる。
ネットワーク層がデータを分離する方法を反映したニューラル共分散カーネルの可換性について検討する。
その結果,[55]では, 枝が爆発的な振る舞いを避けるために適切にスケールされた場合, 枝の幅と深さをスキップ接続のあるディープニューラルネットワークにおいて無限大にすることで, どのような制限を取ろうとも, 同じ共分散構造になることがわかった。
このことは、本稿で論じる理論的および実践的な意味を持つ。
本論文の証明手法は,確率計算に慣れていない読者(WD(I)の証明に使用される)に対して,よりアクセスしやすいツールに頼っている。
関連論文リスト
- Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions [3.04585143845864]
ネットワークの深層化が進むにつれ、ネットワークは縮退しやすくなっている。
完全に接続されたReLUネットワークアーキテクチャのデジェネリシーのレベルを正確に予測できる単純なアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-06-02T13:02:52Z) - Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization [5.678271181959529]
層数の関数としてReLUニューラルネットワークへの2つの入力間の角度の進化について検討する。
モンテカルロ実験を用いて理論的結果を検証し, 有限ネットワークの挙動を正確に近似することを示した。
また,深度縮退現象が実際のネットワークのトレーニングに悪影響を及ぼすかを実証的に検討した。
論文 参考訳(メタデータ) (2023-02-20T01:30:27Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Stochastic Neural Networks with Infinite Width are Deterministic [7.07065078444922]
使用中のニューラルネットワークの主要なタイプであるニューラルネットワークについて研究する。
最適化されたニューラルネットワークの幅が無限大になる傾向があるため、トレーニングセットの予測分散はゼロになる。
論文 参考訳(メタデータ) (2022-01-30T04:52:31Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。