論文の概要: Scale Mixtures of Neural Network Gaussian Processes
- arxiv url: http://arxiv.org/abs/2107.01408v1
- Date: Sat, 3 Jul 2021 11:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 08:45:48.055649
- Title: Scale Mixtures of Neural Network Gaussian Processes
- Title(参考訳): ニューラルネットワークガウス過程のスケール混合
- Authors: Hyungi Lee, Eunggu Yun, Hongseok Yang, Juho Lee
- Abstract要約: 我々は、末層パラメータのスケールに先行する$mathrmNNGP$のスケール混合を導入する。
ある種のスケールの先行で重み付きプロセスが得られ、逆ガンマ分布の場合、学生の$t$プロセスが復元されることを示す。
さらに、ニューラルネットワークを事前設定で分析し、勾配降下を訓練し、$mathrmNNGP$と同じような結果を得る。
- 参考スコア(独自算出の注目度): 22.07524388784668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have revealed that infinitely-wide feed-forward or recurrent
neural networks of any architecture correspond to Gaussian processes referred
to as $\mathrm{NNGP}$. While these works have extended the class of neural
networks converging to Gaussian processes significantly, however, there has
been little focus on broadening the class of stochastic processes that such
neural networks converge to. In this work, inspired by the scale mixture of
Gaussian random variables, we propose the scale mixture of $\mathrm{NNGP}$ for
which we introduce a prior distribution on the scale of the last-layer
parameters. We show that simply introducing a scale prior on the last-layer
parameters can turn infinitely-wide neural networks of any architecture into a
richer class of stochastic processes. Especially, with certain scale priors, we
obtain heavy-tailed stochastic processes, and we recover Student's $t$
processes in the case of inverse gamma priors. We further analyze the
distributions of the neural networks initialized with our prior setting and
trained with gradient descents and obtain similar results as for
$\mathrm{NNGP}$. We present a practical posterior-inference algorithm for the
scale mixture of $\mathrm{NNGP}$ and empirically demonstrate its usefulness on
regression and classification tasks.
- Abstract(参考訳): 最近の研究は、任意のアーキテクチャの無限大のフィードフォワードまたはリカレントニューラルネットワークが、$\mathrm{NNGP}$と呼ばれるガウス過程に対応することを明らかにした。
これらの研究はガウス過程に収束するニューラルネットワークのクラスを著しく拡張してきたが、そのようなニューラルネットワークが収束する確率過程のクラスの拡大にはほとんど焦点が当てられていない。
本研究では,ガウス確率変数のスケール混合に着想を得て,ラスト層パラメータのスケールにおける事前分布を導入するために,$\mathrm{nngp}$ のスケール混合を提案する。
最終層パラメータに先行してスケールを導入するだけで、任意のアーキテクチャの無限大のニューラルネットワークをよりリッチな確率的プロセスに変換できることを示す。
特に,あるスケールプリエントの場合,重み付き確率的プロセスが得られ,逆ガンマプリエントの場合の学生の$t$プロセスが復元される。
さらに,先行設定で初期化したニューラルネットワークの分布を解析し,勾配降下訓練を行い,$\mathrm{nngp}$ と同様の結果を得た。
我々は,$\mathrm{nngp}$のスケール混合に対する実用的な後方参照アルゴリズムを提案し,回帰および分類タスクにおいてその有用性を実証する。
関連論文リスト
- Finite Neural Networks as Mixtures of Gaussian Processes: From Provable Error Bounds to Prior Selection [11.729744197698718]
有限幅と深さのニューラルネットワークを近似するアルゴリズム的枠組みを提案する。
ニューラルネットワークの各層の出力分布をガウス過程の混合として反復的に近似する。
我々の結果は、ニューラルネットワークの予測を理解するための重要なステップである。
論文 参考訳(メタデータ) (2024-07-26T12:45:53Z) - Random ReLU Neural Networks as Non-Gaussian Processes [20.607307985674428]
線形単位活性化関数が整列されたランダムニューラルネットワークは、ガウス過程を適切に定義していないことを示す。
副産物として、これらのネットワークは、衝動ホワイトノイズによって駆動される微分方程式の解であることを示す。
論文 参考訳(メタデータ) (2024-05-16T16:28:11Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - Large-width functional asymptotics for deep Gaussian neural networks [2.7561479348365734]
重みとバイアスが独立であり、ガウス分布に従って同一に分布する完全連結フィードフォワード深層ニューラルネットワークを考える。
この結果は、無限に広い深層ニューラルネットワークとプロセス間の相互作用に関する最近の理論的研究に寄与する。
論文 参考訳(メタデータ) (2021-02-20T10:14:37Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - Generalized Leverage Score Sampling for Neural Networks [82.95180314408205]
レバレッジスコアサンプリング(英: Leverage score sample)は、理論計算機科学に由来する強力な技術である。
本研究では、[Avron, Kapralov, Musco, Musco, Musco, Velingker, Zandieh 17] の結果をより広範なカーネルのクラスに一般化する。
論文 参考訳(メタデータ) (2020-09-21T14:46:01Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。