論文の概要: Asymptotics of Wide Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2008.08675v1
- Date: Wed, 19 Aug 2020 21:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 09:07:11.513895
- Title: Asymptotics of Wide Convolutional Neural Networks
- Title(参考訳): 広帯域畳み込みニューラルネットワークの漸近
- Authors: Anders Andreassen, Ethan Dyer
- Abstract要約: スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
- 参考スコア(独自算出の注目度): 18.198962344790377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide neural networks have proven to be a rich class of architectures for both
theory and practice. Motivated by the observation that finite width
convolutional networks appear to outperform infinite width networks, we study
scaling laws for wide CNNs and networks with skip connections. Following the
approach of (Dyer & Gur-Ari, 2019), we present a simple diagrammatic recipe to
derive the asymptotic width dependence for many quantities of interest. These
scaling relationships provide a solvable description for the training dynamics
of wide convolutional networks. We test these relations across a broad range of
architectures. In particular, we find that the difference in performance
between finite and infinite width models vanishes at a definite rate with
respect to model width. Nonetheless, this relation is consistent with finite
width models generalizing either better or worse than their infinite width
counterparts, and we provide examples where the relative performance depends on
the optimization details.
- Abstract(参考訳): 広いニューラルネットワークは、理論と実践の両方において、リッチなアーキテクチャクラスであることが証明されている。
有限幅畳み込みネットワークが無限幅ネットワークを上回るという観測に動機づけられ,スキップ接続を持つ広帯域cnnおよびネットワークのスケーリング則について検討した。
我々は(dyer & gur-ari, 2019) のアプローチに従って,多量の利害に対して漸近的な幅依存性を導出するための単純な図式的レシピを提案する。
これらのスケーリング関係は、広い畳み込みネットワークのトレーニングダイナミクスの解決可能な記述を提供する。
これらの関係を幅広いアーキテクチャでテストします。
特に,有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
にもかかわらず、この関係は有限幅モデルと一致し、その無限幅モデルよりも良いか悪いかのどちらかを一般化し、相対的な性能が最適化の詳細に依存する例を示す。
関連論文リスト
- Robust Learning in Bayesian Parallel Branching Graph Neural Networks: The Narrow Width Limit [4.373803477995854]
ベイズ並列分岐グラフニューラルネットワーク(BPB-GNN)の幅制限について検討する。
BPB-GNNの幅がトレーニング例の数に比べて有意に小さい場合、各ブランチはより堅牢な学習を示す。
本結果は,並列分岐ネットワークにおいて,新たに定義された狭帯域方式を特徴付けるものである。
論文 参考訳(メタデータ) (2024-07-26T15:14:22Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - An Empirical Analysis of the Advantages of Finite- v.s. Infinite-Width
Bayesian Neural Networks [25.135652514472238]
実験により,有限幅BNNと無限幅BNNを比較し,その性能差について定量的,質的な説明を行う。
モデルが不特定の場合には,BNNの性能を損なう可能性がある。
このような場合、有限幅のBNNは、その周波数スペクトルの特性によって部分的に一般化され、モデルミスマッチの下で適応できることを示す。
論文 参考訳(メタデータ) (2022-11-16T20:07:55Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On Infinite-Width Hypernetworks [101.03630454105621]
我々は、ハイパーネットワークが、下降中のグローバルなミニマを保証していないことを示す。
我々は,これらのアーキテクチャの機能的先行を,対応するGPカーネルとNTKカーネルを導出することによって同定する。
この研究の一環として、標準完全連結ReLUネットワークの高次テイラー項の厳密な境界を導出した数学的貢献を行う。
論文 参考訳(メタデータ) (2020-03-27T00:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。