論文の概要: On the optimization and pruning for Bayesian deep learning
- arxiv url: http://arxiv.org/abs/2210.12957v1
- Date: Mon, 24 Oct 2022 05:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:45:37.783516
- Title: On the optimization and pruning for Bayesian deep learning
- Title(参考訳): ベイズ深層学習の最適化と刈り取りについて
- Authors: Xiongwen Ke and Yanan Fan
- Abstract要約: 重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。
EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。
我々の密度モデルは最先端の性能に到達でき、スパースモデルは以前提案したプルーニング方式と比較して非常によく機能する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of Bayesian deep learning is to provide uncertainty quantification
via the posterior distribution. However, exact inference over the weight space
is computationally intractable due to the ultra-high dimensions of the neural
network. Variational inference (VI) is a promising approach, but naive
application on weight space does not scale well and often underperform on
predictive accuracy. In this paper, we propose a new adaptive variational
Bayesian algorithm to train neural networks on weight space that achieves high
predictive accuracy. By showing that there is an equivalence to Stochastic
Gradient Hamiltonian Monte Carlo(SGHMC) with preconditioning matrix, we then
propose an MCMC within EM algorithm, which incorporates the spike-and-slab
prior to capture the sparsity of the neural network. The EM-MCMC algorithm
allows us to perform optimization and model pruning within one-shot. We
evaluate our methods on CIFAR-10, CIFAR-100 and ImageNet datasets, and
demonstrate that our dense model can reach the state-of-the-art performance and
our sparse model perform very well compared to previously proposed pruning
schemes.
- Abstract(参考訳): ベイズ深層学習の目的は、後方分布による不確実性定量化を提供することである。
しかし、ニューラルネットワークの超高次元のため、重み空間上の正確な推論は計算的に難解である。
変分推論(VI)は有望なアプローチであるが、重み空間への単純適用はうまくスケールせず、しばしば予測精度に劣る。
本稿では,予測精度の高い重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。
予備条件行列を持つ確率勾配ハミルトンモンテカルロ(sghmc)の等価性を示すことによって、ニューラルネットワークのスパーシティを捉える前にスパイク・アンド・スラブを組み込んだemアルゴリズム内のmcmcを提案する。
EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。
我々は、cifar-10、cifar-100、imagenetデータセットの手法を評価し、我々の密集したモデルが最先端の性能に到達できることを実証し、我々のスパースモデルは、以前提案していたプルーニング方式と比較して非常によく機能することを示した。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - A deep learning based surrogate model for stochastic simulators [0.0]
シミュレータのための深層学習に基づく代理モデルを提案する。
我々は損失関数として条件付き最大平均誤差(CMMD)を利用する。
その結果,提案手法の優れた性能が得られた。
論文 参考訳(メタデータ) (2021-10-24T11:38:47Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Stochastic Gradient Langevin Dynamics Algorithms with Adaptive Drifts [8.36840154574354]
そこで我々は, ドリフト関数を偏り, サドル点からの脱出を促進させ, バイアスを過去のサンプルの勾配に応じて適応的に調整する, 適応的勾配勾配連鎖モンテカルロ(SGMCMC)アルゴリズムを提案する。
本稿では,提案アルゴリズムが既存のSGMCMCアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-20T22:03:39Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。