論文の概要: Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2404.19157v1
- Date: Mon, 29 Apr 2024 23:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:53:21.664115
- Title: Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks
- Title(参考訳): ディープラーニング時代のスケーラブルベイズ推論:ガウス過程からディープニューラルネットワークへ
- Authors: Javier Antoran,
- Abstract要約: 大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
- 参考スコア(独自算出の注目度): 0.5827521884806072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks trained on large datasets have become the dominant paradigm in machine learning. These systems rely on maximum likelihood point estimates of their parameters, precluding them from expressing model uncertainty. This may result in overconfident predictions and it prevents the use of deep learning models for sequential decision making. This thesis develops scalable methods to equip neural networks with model uncertainty. In particular, we leverage the linearised Laplace approximation to equip pre-trained neural networks with the uncertainty estimates provided by their tangent linear models. This turns the problem of Bayesian inference in neural networks into one of Bayesian inference in conjugate Gaussian-linear models. Alas, the cost of this remains cubic in either the number of network parameters or in the number of observations times output dimensions. By assumption, neither are tractable. We address this intractability by using stochastic gradient descent (SGD) -- the workhorse algorithm of deep learning -- to perform posterior sampling in linear models and their convex duals: Gaussian processes. With this, we turn back to linearised neural networks, finding the linearised Laplace approximation to present a number of incompatibilities with modern deep learning practices -- namely, stochastic optimisation, early stopping and normalisation layers -- when used for hyperparameter learning. We resolve these and construct a sample-based EM algorithm for scalable hyperparameter learning with linearised neural networks. We apply the above methods to perform linearised neural network inference with ResNet-50 (25M parameters) trained on Imagenet (1.2M observations and 1000 output dimensions). Additionally, we apply our methods to estimate uncertainty for 3d tomographic reconstructions obtained with the deep image prior network.
- Abstract(参考訳): 大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
これらのシステムは、モデルの不確実性を表現することを除いて、パラメータの最大極大点推定に依存している。
これにより、過度に信頼された予測が得られ、シーケンシャルな意思決定にディープラーニングモデルを使用するのを防ぐことができる。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
特に、線形化されたLaplace近似を利用して、事前学習されたニューラルネットワークに、それらの接する線形モデルによって提供される不確実性推定を装備する。
これは、ニューラルネットワークにおけるベイジアン推論の問題を、共役ガウス-線型モデルにおけるベイジアン推論の1つに変える。
残念なことに、このコストは、ネットワークパラメータの数や、出力寸法の観測時間の数で3倍に留まっている。
仮定すると、どちらの場合もトラクタブルではない。
本研究では,線形モデルとその凸双対(ガウス過程)の後方サンプリングを行うために,確率勾配降下(SGD)を用いて,この難易度に対処する。
これによって線形化されたニューラルネットワークに戻り、ハイパーパラメータ学習に使用する場合、線形化されたLaplace近似が現代のディープラーニングプラクティス – 確率的最適化、早期停止層、正規化層 – と相容れないことが分かりました。
我々はこれらを解き、線形化ニューラルネットワークを用いたスケーラブルなハイパーパラメータ学習のためのサンプルベースEMアルゴリズムを構築した。
本稿では,イメージネット上でトレーニングしたResNet-50(25Mパラメータ)を用いて,線形化されたニューラルネットワーク推論を行う手法を提案する。
さらに,本手法を用いて,深部画像先行ネットワークを用いて得られた3次元トモグラフィー再構成の不確かさを推定する。
関連論文リスト
- On the Convergence of Locally Adaptive and Scalable Diffusion-Based Sampling Methods for Deep Bayesian Neural Network Posteriors [2.3265565167163906]
ベイズニューラルネットワークは、ディープニューラルネットワークにおける不確実性をモデル化するための有望なアプローチである。
ニューラルネットワークの 後部分布からサンプルを生成することは 大きな課題です
この方向の進歩の1つは、モンテカルロ・マルコフ連鎖サンプリングアルゴリズムへの適応的なステップサイズの導入である。
本稿では,これらの手法が,ステップサイズやバッチサイズが小さくても,サンプリングした分布にかなりの偏りがあることを実証する。
論文 参考訳(メタデータ) (2024-03-13T15:21:14Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Multi-fidelity Bayesian Neural Networks: Algorithms and Applications [0.0]
本稿では,可変忠実度の雑音データを用いて訓練できるベイズ型ニューラルネットワーク(BNN)を提案する。
関数近似の学習や、偏微分方程式(PDE)に基づく逆問題の解法に応用する。
論文 参考訳(メタデータ) (2020-12-19T02:03:53Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Improving predictions of Bayesian neural nets via local linearization [79.21517734364093]
ガウス・ニュートン近似は基礎となるベイズニューラルネットワーク(BNN)の局所線形化として理解されるべきである。
この線形化モデルを後部推論に使用するので、元のモデルではなく、この修正モデルを使用することも予測すべきである。
この修正された予測を"GLM predictive"と呼び、Laplace近似の共通不適合問題を効果的に解決することを示す。
論文 参考訳(メタデータ) (2020-08-19T12:35:55Z) - Measurement error models: from nonparametric methods to deep neural
networks [3.1798318618973362]
本稿では,測定誤差モデルの推定に有効なニューラルネットワーク設計を提案する。
完全に接続されたフィードフォワードニューラルネットワークを用いて回帰関数を$f(x)$に近似する。
我々は、ニューラルネットワークアプローチと古典的ノンパラメトリック手法を比較するために、広範囲にわたる数値的研究を行っている。
論文 参考訳(メタデータ) (2020-07-15T06:05:37Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。