論文の概要: The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective
- arxiv url: http://arxiv.org/abs/2106.06529v1
- Date: Fri, 11 Jun 2021 17:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:28:43.795872
- Title: The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective
- Title(参考訳): ニューラルネットワークにおける大きな幅の限界:深いガウス過程の観点から
- Authors: Geoff Pleiss, John P. Cunningham
- Abstract要約: 本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
- 参考スコア(独自算出の注目度): 34.67386186205545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large width limits have been a recent focus of deep learning research: modulo
computational practicalities, do wider networks outperform narrower ones?
Answering this question has been challenging, as conventional networks gain
representational power with width, potentially masking any negative effects.
Our analysis in this paper decouples capacity and width via the generalization
of neural networks to Deep Gaussian Processes (Deep GP), a class of
hierarchical models that subsume neural nets. In doing so, we aim to understand
how width affects standard neural networks once they have sufficient capacity
for a given modeling task. Our theoretical and empirical results on Deep GP
suggest that large width is generally detrimental to hierarchical models.
Surprisingly, we prove that even nonparametric Deep GP converge to Gaussian
processes, effectively becoming shallower without any increase in
representational power. The posterior, which corresponds to a mixture of
data-adaptable basis functions, becomes less data-dependent with width. Our
tail analysis demonstrates that width and depth have opposite effects: depth
accentuates a model's non-Gaussianity, while width makes models increasingly
Gaussian. We find there is a "sweet spot" that maximizes test set performance
before the limiting GP behavior prevents adaptability, occurring at width = 1
or width = 2 for nonparametric Deep GP. These results make strong predictions
about the same phenomenon in conventional neural networks: we show empirically
that many neural network architectures need 10 - 500 hidden units for
sufficient capacity - depending on the dataset - but further width degrades
test performance.
- Abstract(参考訳): 大規模幅の制限は、近年のディープラーニング研究の焦点となっている: モジュラー計算の実用性、より広いネットワークはより狭いネットワークよりも優れているか?
従来のネットワークは幅のある表現力を獲得し、ネガティブな効果を隠蔽する可能性があるため、この問題に答えるのは難しい。
本稿では,ニューラルネットワークを一般化した階層型モデルであるDeep Gaussian Processes (Deep GP) の容量と幅を分離する。
これにより、与えられたモデリングタスクに十分なキャパシティが得られたら、幅が標準ニューラルネットワークにどのように影響するかを理解することを目指している。
Deep GPの理論的および実証的な結果は、大幅が一般に階層モデルに有害であることを示している。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上浅くなっていく。
データ適応可能な基底関数の混合に対応する後部は、幅によってデータ依存が減る。
深さはモデルの非ガウス性を強調し、幅はモデルのガウス性を強める。
制限gp動作が適応性を妨げる前にテストセットのパフォーマンスを最大化する「スイートスポット」が、非パラメトリックなディープgpの場合、幅 = 1 または幅 = 2 で発生する。
これらの結果は、従来のニューラルネットワークにおいて、同じ現象について強い予測をもたらしている:我々は、多くのニューラルネットワークアーキテクチャは、データセットによって十分な容量のために10 - 500の隠れたユニットを必要とするが、さらに幅はテスト性能を低下させる。
関連論文リスト
- Wide Neural Networks as Gaussian Processes: Lessons from Deep
Equilibrium Models [16.07760622196666]
本研究では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。
解析により,DEC層の幅が無限大に近づくにつれ,ガウス過程に収束することが明らかとなった。
注目すべきは、この収束は深さと幅の限界が交換されても成り立つことである。
論文 参考訳(メタデータ) (2023-10-16T19:00:43Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Width and Depth Limits Commute in Residual Networks [26.97391529844503]
接続をスキップするディープニューラルネットワークにおいて、幅と深さを無限大にすると、その制限がどう取られるかに関わらず、同じ共分散構造が得られることを示す。
このことは、標準無限幅奥行きアプローチが、幅と同じ順序の深さのネットワークに対しても実用的な洞察を与える理由を説明する。
理論的な結果と良好な一致を示す広範囲なシミュレーションを行う。
論文 参考訳(メタデータ) (2023-02-01T13:57:32Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Contrasting random and learned features in deep Bayesian linear
regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文 参考訳(メタデータ) (2022-03-01T15:51:29Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。