論文の概要: Bayesian Interpolation with Deep Linear Networks
- arxiv url: http://arxiv.org/abs/2212.14457v1
- Date: Thu, 29 Dec 2022 20:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:04:23.969220
- Title: Bayesian Interpolation with Deep Linear Networks
- Title(参考訳): 深い線形ネットワークによるベイズ補間
- Authors: Boris Hanin, Alexander Zlokapa
- Abstract要約: ガウス重み先行とMSE負の対数類似性損失は、予測後部とベイズ模型の証拠の両方を閉じた形で書くことができることを示す。
Meijer-G関数の新たな拡張を通じて、深度の役割の豊富な新しい絵が現われる。
- 参考スコア(独自算出の注目度): 92.1721532941863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article concerns Bayesian inference using deep linear networks with
output dimension one. In the interpolating (zero noise) regime we show that
with Gaussian weight priors and MSE negative log-likelihood loss both the
predictive posterior and the Bayesian model evidence can be written in closed
form in terms of a class of meromorphic special functions called Meijer-G
functions. These results are non-asymptotic and hold for any training dataset,
network depth, and hidden layer widths, giving exact solutions to Bayesian
interpolation using a deep Gaussian process with a Euclidean covariance at each
layer. Through novel asymptotic expansions of Meijer-G functions, a rich new
picture of the role of depth emerges. Specifically, we find:
${\bf \text{The role of depth in extrapolation}}$: The posteriors in deep
linear networks with data-independent priors are the same as in shallow
networks with evidence maximizing data-dependent priors. In this sense, deep
linear networks make provably optimal predictions.
${\bf \text{The role of depth in model selection}}$: Starting from
data-agnostic priors, Bayesian model evidence in wide networks is only
maximized at infinite depth. This gives a principled reason to prefer deeper
networks (at least in the linear case).
${\bf \text{Scaling laws relating depth, width, and number of datapoints}}$:
With data-agnostic priors, a novel notion of effective depth given by
\[\#\text{hidden layers}\times\frac{\#\text{training data}}{\text{network
width}}\] determines the Bayesian posterior in wide linear networks, giving
rigorous new scaling laws for generalization error.
- Abstract(参考訳): 本稿では,出力次元1の深い線形ネットワークを用いたベイズ推定について述べる。
補間(ゼロノイズ)理論において、ガウスの重み前置法とmse負の対数類似性損失により、予測後置法とベイズ模型の証明は、meijer-g関数と呼ばれる有理特殊関数のクラスで閉じた形で書けることが示される。
これらの結果は非漸近的であり、トレーニングデータセット、ネットワーク深度、隠された層幅を保ち、各層にユークリッド共分散を持つ深いガウス過程を用いてベイズ補間を正確に解いた。
Meijer-G関数の新たな漸近展開を通じて、深度の役割の豊かな新しい絵が現れる。
特に、${\bf \text{the role of depth in extrapolation}}$: データ非依存のプリミティブを持つディープリニアネットワークの後方は、データ依存のプリミティブを最大化する証拠のある浅いネットワークと同じである。
この意味で、深い線形ネットワークは証明可能な最適予測を行う。
${\bf \text{the role of depth in model selection}}$: データ非依存の事前から、広域ネットワークにおけるベイズモデルの証拠は無限の深さでのみ最大化される。
これは(少なくとも線形の場合)より深いネットワークを好む原則的な理由を与える。
data-dependent priors を用いて、 \[\#\text{hidden layers}\times\frac{\#\text{training data}}{\text{network width}}\] によって与えられる効果的な深さという新しい概念は、広い線形ネットワークにおけるベイジアン後方を決定する。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Contrasting random and learned features in deep Bayesian linear
regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。
すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文 参考訳(メタデータ) (2022-03-01T15:51:29Z) - Precise characterization of the prior predictive distribution of deep
ReLU networks [45.46732383818331]
ガウス重み付き有限幅ReLUネットワークの事前予測分布を正確に推定する。
この結果は,例えば,ネットワークの重みについて,深さと幅にインフォームドされた事前の予測分散を制御するなど,事前設計に関する貴重なガイダンスを提供する。
論文 参考訳(メタデータ) (2021-06-11T21:21:52Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。