論文の概要: Scale Mixtures of Neural Network Gaussian Processes
- arxiv url: http://arxiv.org/abs/2107.01408v1
- Date: Sat, 3 Jul 2021 11:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 08:45:48.055649
- Title: Scale Mixtures of Neural Network Gaussian Processes
- Title(参考訳): ニューラルネットワークガウス過程のスケール混合
- Authors: Hyungi Lee, Eunggu Yun, Hongseok Yang, Juho Lee
- Abstract要約: 我々は、末層パラメータのスケールに先行する$mathrmNNGP$のスケール混合を導入する。
ある種のスケールの先行で重み付きプロセスが得られ、逆ガンマ分布の場合、学生の$t$プロセスが復元されることを示す。
さらに、ニューラルネットワークを事前設定で分析し、勾配降下を訓練し、$mathrmNNGP$と同じような結果を得る。
- 参考スコア(独自算出の注目度): 22.07524388784668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have revealed that infinitely-wide feed-forward or recurrent
neural networks of any architecture correspond to Gaussian processes referred
to as $\mathrm{NNGP}$. While these works have extended the class of neural
networks converging to Gaussian processes significantly, however, there has
been little focus on broadening the class of stochastic processes that such
neural networks converge to. In this work, inspired by the scale mixture of
Gaussian random variables, we propose the scale mixture of $\mathrm{NNGP}$ for
which we introduce a prior distribution on the scale of the last-layer
parameters. We show that simply introducing a scale prior on the last-layer
parameters can turn infinitely-wide neural networks of any architecture into a
richer class of stochastic processes. Especially, with certain scale priors, we
obtain heavy-tailed stochastic processes, and we recover Student's $t$
processes in the case of inverse gamma priors. We further analyze the
distributions of the neural networks initialized with our prior setting and
trained with gradient descents and obtain similar results as for
$\mathrm{NNGP}$. We present a practical posterior-inference algorithm for the
scale mixture of $\mathrm{NNGP}$ and empirically demonstrate its usefulness on
regression and classification tasks.
- Abstract(参考訳): 最近の研究は、任意のアーキテクチャの無限大のフィードフォワードまたはリカレントニューラルネットワークが、$\mathrm{NNGP}$と呼ばれるガウス過程に対応することを明らかにした。
これらの研究はガウス過程に収束するニューラルネットワークのクラスを著しく拡張してきたが、そのようなニューラルネットワークが収束する確率過程のクラスの拡大にはほとんど焦点が当てられていない。
本研究では,ガウス確率変数のスケール混合に着想を得て,ラスト層パラメータのスケールにおける事前分布を導入するために,$\mathrm{nngp}$ のスケール混合を提案する。
最終層パラメータに先行してスケールを導入するだけで、任意のアーキテクチャの無限大のニューラルネットワークをよりリッチな確率的プロセスに変換できることを示す。
特に,あるスケールプリエントの場合,重み付き確率的プロセスが得られ,逆ガンマプリエントの場合の学生の$t$プロセスが復元される。
さらに,先行設定で初期化したニューラルネットワークの分布を解析し,勾配降下訓練を行い,$\mathrm{nngp}$ と同様の結果を得た。
我々は,$\mathrm{nngp}$のスケール混合に対する実用的な後方参照アルゴリズムを提案し,回帰および分類タスクにおいてその有用性を実証する。
関連論文リスト
- Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - Large-width functional asymptotics for deep Gaussian neural networks [2.7561479348365734]
重みとバイアスが独立であり、ガウス分布に従って同一に分布する完全連結フィードフォワード深層ニューラルネットワークを考える。
この結果は、無限に広い深層ニューラルネットワークとプロセス間の相互作用に関する最近の理論的研究に寄与する。
論文 参考訳(メタデータ) (2021-02-20T10:14:37Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - Generalized Leverage Score Sampling for Neural Networks [82.95180314408205]
レバレッジスコアサンプリング(英: Leverage score sample)は、理論計算機科学に由来する強力な技術である。
本研究では、[Avron, Kapralov, Musco, Musco, Musco, Velingker, Zandieh 17] の結果をより広範なカーネルのクラスに一般化する。
論文 参考訳(メタデータ) (2020-09-21T14:46:01Z) - Measurement error models: from nonparametric methods to deep neural
networks [3.1798318618973362]
本稿では,測定誤差モデルの推定に有効なニューラルネットワーク設計を提案する。
完全に接続されたフィードフォワードニューラルネットワークを用いて回帰関数を$f(x)$に近似する。
我々は、ニューラルネットワークアプローチと古典的ノンパラメトリック手法を比較するために、広範囲にわたる数値的研究を行っている。
論文 参考訳(メタデータ) (2020-07-15T06:05:37Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。