論文の概要: Deep neural networks with dependent weights: Gaussian Process mixture
limit, heavy tails, sparsity and compressibility
- arxiv url: http://arxiv.org/abs/2205.08187v1
- Date: Tue, 17 May 2022 09:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 13:27:13.592062
- Title: Deep neural networks with dependent weights: Gaussian Process mixture
limit, heavy tails, sparsity and compressibility
- Title(参考訳): 依存重みを持つディープニューラルネットワーク:ガウス過程混合限界、重尾、空間性と圧縮性
- Authors: Hoil Lee, Fadhel Ayed, Paul Jung, Juho Lee, Hongseok Yang and
Fran\c{c}ois Caron
- Abstract要約: 本稿では,重みに依存するディープフィードフォワードニューラルネットワークの無限幅限界について検討する。
ネットワークの各隠れノードは、そのノードの出力重みの分散を制御する非負のランダム変数が割り当てられる。
この体制では、重みは圧縮可能であり、特徴学習が可能であることを示す。
- 参考スコア(独自算出の注目度): 20.988256573191077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article studies the infinite-width limit of deep feedforward neural
networks whose weights are dependent, and modelled via a mixture of Gaussian
distributions. Each hidden node of the network is assigned a nonnegative random
variable that controls the variance of the outgoing weights of that node. We
make minimal assumptions on these per-node random variables: they are iid and
their sum, in each layer, converges to some finite random variable in the
infinite-width limit. Under this model, we show that each layer of the
infinite-width neural network can be characterised by two simple quantities: a
non-negative scalar parameter and a L\'evy measure on the positive reals. If
the scalar parameters are strictly positive and the L\'evy measures are trivial
at all hidden layers, then one recovers the classical Gaussian process (GP)
limit, obtained with iid Gaussian weights. More interestingly, if the L\'evy
measure of at least one layer is non-trivial, we obtain a mixture of Gaussian
processes (MoGP) in the large-width limit. The behaviour of the neural network
in this regime is very different from the GP regime. One obtains correlated
outputs, with non-Gaussian distributions, possibly with heavy tails.
Additionally, we show that, in this regime, the weights are compressible, and
feature learning is possible. Many sparsity-promoting neural network models can
be recast as special cases of our approach, and we discuss their infinite-width
limits; we also present an asymptotic analysis of the pruning error. We
illustrate some of the benefits of the MoGP regime over the GP regime in terms
of representation learning and compressibility on simulated, MNIST and Fashion
MNIST datasets.
- Abstract(参考訳): 本稿では,重みが依存するディープフィードフォワードニューラルネットワークの無限幅極限について検討し,ガウス分布の混合によりモデル化する。
ネットワークの各隠れノードには、そのノードの出力重みの分散を制御する非負の確率変数が割り当てられる。
これらのノードごとの確率変数について最小の仮定をする:それらは iid であり、それらの和は各層において無限幅極限内の有限確率変数に収束する。
このモデルでは、無限幅ニューラルネットワークの各層は、正の実数に対する非負のスカラーパラメータとL''evy測度という2つの単純な量で特徴づけられることを示す。
スカラーパラメータが厳密に正であり、L''evy測度がすべての隠れた層で自明であれば、イド・ガウスウェイトで得られる古典的ガウス過程(GP)極限を回復する。
さらに興味深いことに、少なくとも一つの層のL''evy測度が非自明であれば、大幅極限におけるガウス過程(MoGP)の混合が得られる。
この状態におけるニューラルネットワークの挙動は、GP状態とは大きく異なる。
ガウス分布が非ガウス分布であり、おそらく重い尾を持つ相関出力を得る。
さらに,本方式では,重みは圧縮可能であり,特徴学習も可能であることを示す。
我々は,このアプローチの特別な場合として,多くのスパース性プロモーティングニューラルネットワークモデルを再キャストすることが可能であり,その無限幅限界について考察する。
シミュレーション,MNIST,Fashion MNISTデータセット上での表現学習と圧縮性の観点から,MoGP方式のGP方式に対する利点を述べる。
関連論文リスト
- Random ReLU Neural Networks as Non-Gaussian Processes [20.607307985674428]
線形単位活性化関数が整列されたランダムニューラルネットワークは、ガウス過程を適切に定義していないことを示す。
副産物として、これらのネットワークは、衝動ホワイトノイズによって駆動される微分方程式の解であることを示す。
論文 参考訳(メタデータ) (2024-05-16T16:28:11Z) - Quantitative CLTs in Deep Neural Networks [12.845031126178593]
ランダムなガウス重みとバイアスを持つ完全連結ニューラルネットワークの分布について検討する。
我々は、大まかではあるが有限の$n$および任意の固定されたネットワーク深さで有効な正規近似の量的境界を得る。
我々の境界は、それまでの文献で利用できたものよりも、ネットワーク幅に依存しているという点で厳格に強い。
論文 参考訳(メタデータ) (2023-07-12T11:35:37Z) - Posterior Inference on Shallow Infinitely Wide Bayesian Neural Networks under Weights with Unbounded Variance [1.5960546024967326]
1つの隠れた層を持つベイズニューラルネットワークの無限幅スケーリング限界は、ネットワーク重みが事前の分散に束縛されたガウス過程であることが知られている。
Nealの結果は、複数の隠蔽層を持つネットワークや、ガウスのプロセススケーリング制限を伴う畳み込みニューラルネットワークにまで拡張されている。
我々の貢献は、条件付きガウス表現を用いて、後部推論の解釈可能かつ計算学的に効率的な手順であり、非ガウス系におけるトラクタブルな後部推論と不確実な定量化のためにガウス過程の機械をフル活用することができる。
論文 参考訳(メタデータ) (2023-05-18T02:55:00Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Infinitely Wide Tensor Networks as Gaussian Process [1.7894377200944511]
本稿では、無限に広いネットワークとガウス過程の等価性を示す。
我々は無限極限テンソルネットワークに対応するガウス過程を実装し、これらのモデルのサンプルパスをプロットする。
論文 参考訳(メタデータ) (2021-01-07T02:29:15Z) - Characteristics of Monte Carlo Dropout in Wide Neural Networks [16.639005039546745]
モンテカルロ(MC)ドロップアウトはニューラルネットワーク(NN)における不確実性推定のための最先端のアプローチの1つである
本研究では, 降雨時の広帯域NNの制限分布についてより厳密に検討し, 一定の重みと偏りの集合に対してガウス過程に収束することが証明された。
本研究では,(強く)相関したプレアクティベーションが,強相関重みを持つNNにおいて非ガウス的行動を引き起こすかを検討する。
論文 参考訳(メタデータ) (2020-07-10T15:14:43Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。