論文の概要: Bayesian Interpolation with Deep Linear Networks
- arxiv url: http://arxiv.org/abs/2212.14457v3
- Date: Sun, 14 May 2023 23:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 23:45:44.092285
- Title: Bayesian Interpolation with Deep Linear Networks
- Title(参考訳): 深い線形ネットワークによるベイズ補間
- Authors: Boris Hanin, Alexander Zlokapa
- Abstract要約: ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
- 参考スコア(独自算出の注目度): 92.1721532941863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characterizing how neural network depth, width, and dataset size jointly
impact model quality is a central problem in deep learning theory. We give here
a complete solution in the special case of linear networks with output
dimension one trained using zero noise Bayesian inference with Gaussian weight
priors and mean squared error as a negative log-likelihood. For any training
dataset, network depth, and hidden layer widths, we find non-asymptotic
expressions for the predictive posterior and Bayesian model evidence in terms
of Meijer-G functions, a class of meromorphic special functions of a single
complex variable. Through novel asymptotic expansions of these Meijer-G
functions, a rich new picture of the joint role of depth, width, and dataset
size emerges. We show that linear networks make provably optimal predictions at
infinite depth: the posterior of infinitely deep linear networks with
data-agnostic priors is the same as that of shallow networks with
evidence-maximizing data-dependent priors. This yields a principled reason to
prefer deeper networks when priors are forced to be data-agnostic. Moreover, we
show that with data-agnostic priors, Bayesian model evidence in wide linear
networks is maximized at infinite depth, elucidating the salutary role of
increased depth for model selection. Underpinning our results is a novel
emergent notion of effective depth, given by the number of hidden layers times
the number of data points divided by the network width; this determines the
structure of the posterior in the large-data limit.
- Abstract(参考訳): ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
ここでは、ガウス重み付きゼロノイズベイズ推定と負の対数類似度の平均二乗誤差を用いた出力次元1の線形ネットワークの特別な場合の完全な解を与える。
任意のトレーニングデータセット、ネットワーク深さ、隠された層幅に対して、単一の複素変数のメロモルフィック特殊関数のクラスであるMeijer-G関数の観点から予測的後およびベイズモデル証拠の非漸近式を求める。
これらのmeijer-g関数の新たな漸近展開を通じて、深さ、幅、データセットサイズの共同の役割に関するリッチな新しい図が現れる。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。データに依存しない無限深度線形ネットワークの後部は、データ依存を最大化する浅層ネットワークのそれと同じである。
これは、前者がデータに依存しない場合、より深いネットワークを優先する原則的な理由をもたらす。
さらに,データに依存しない先行例では,広域線形ネットワークにおけるベイズモデルエビデンスを無限深度で最大化し,モデル選択における深度増加の因果関係を明らかにする。
ネットワーク幅で区切られたデータポイントの数の2倍の隠蔽層数で与えられる有効深度という新たな概念であり、これは大容量データ制限における後部構造を決定する。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Contrasting random and learned features in deep Bayesian linear
regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文 参考訳(メタデータ) (2022-03-01T15:51:29Z) - Precise characterization of the prior predictive distribution of deep
ReLU networks [45.46732383818331]
ガウス重み付き有限幅ReLUネットワークの事前予測分布を正確に推定する。
この結果は,例えば,ネットワークの重みについて,深さと幅にインフォームドされた事前の予測分散を制御するなど,事前設計に関する貴重なガイダンスを提供する。
論文 参考訳(メタデータ) (2021-06-11T21:21:52Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。