論文の概要: Variational Inference of overparameterized Bayesian Neural Networks: a
theoretical and empirical study
- arxiv url: http://arxiv.org/abs/2207.03859v1
- Date: Fri, 8 Jul 2022 12:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 09:50:33.591459
- Title: Variational Inference of overparameterized Bayesian Neural Networks: a
theoretical and empirical study
- Title(参考訳): 過パラメータベイズ型ニューラルネットワークの変分推論:理論的および経験的研究
- Authors: Tom Huix, Szymon Majewski, Alain Durmus, Eric Moulines, Anna Korba
- Abstract要約: 本稿では,ベイズニューラルネットワーク(BNN)のトレーニングに用いる変分推論(VI)について検討する。
平均フィールドVIトレーニングにおける重要な課題を指摘する。
この問題は、エビデンス(ELBO)の下位境界を2項に分解することから生じる。
- 参考スコア(独自算出の注目度): 27.86555142135798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the Variational Inference (VI) used for training Bayesian
Neural Networks (BNN) in the overparameterized regime, i.e., when the number of
neurons tends to infinity. More specifically, we consider overparameterized
two-layer BNN and point out a critical issue in the mean-field VI training.
This problem arises from the decomposition of the lower bound on the evidence
(ELBO) into two terms: one corresponding to the likelihood function of the
model and the second to the Kullback-Leibler (KL) divergence between the prior
distribution and the variational posterior. In particular, we show both
theoretically and empirically that there is a trade-off between these two terms
in the overparameterized regime only when the KL is appropriately re-scaled
with respect to the ratio between the the number of observations and neurons.
We also illustrate our theoretical results with numerical experiments that
highlight the critical choice of this ratio.
- Abstract(参考訳): 本稿では,ベイズニューラルネットワーク(BNN)を過度にパラメータ化した状態,すなわちニューロン数が無限大になる傾向にある場合のトレーニングに使用する変分推論(VI)について検討する。
より具体的には、過パラメータ2層bnnを検討し、平均場viトレーニングにおいて重大な問題を指摘する。
この問題は、エビデンス(ELBO)上の下界を、モデルの可能性関数に対応するものと、KL(Kulback-Leibler)の事前分布と変分後部との偏差の2つの項に分解することによって生じる。
特に,理論上,実験上,klが観測数とニューロン数との比で適切に再スケールされる場合にのみ,過剰パラメータ化状態においてこれらの2つの用語の間にトレードオフが存在することを示す。
また、この比の臨界選択を強調する数値実験による理論的結果についても述べる。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Law of Large Numbers for Bayesian two-layer Neural Network trained with
Variational Inference [0.0]
ベイズニューラルネットワークの変分推論(VI)によるトレーニングの厳密な分析を行う。
3つの異なるトレーニングスキームに対して、多数の法則を証明します。
重要な結果は、すべてのメソッドが同じ平均場極限に収束することである。
論文 参考訳(メタデータ) (2023-07-10T07:50:09Z) - Variational Bayesian Neural Networks via Resolution of Singularities [1.2183405753834562]
ベイズニューラルネットワーク(BNN)における変分推論の理論と実践に関連する特異学習理論(SLT)の重要性を提唱する。
本研究では, 下流予測性能, テストログ予測密度, 変動目標との相違点を取り巻く混乱を補う。
我々は,SLT補正形式を特異な後部分布に用いて,変分族自体の設計を知らせる。
論文 参考訳(メタデータ) (2023-02-13T00:32:49Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Neural Estimation of Statistical Divergences [24.78742908726579]
ニューラルネットワーク(NN)による経験的変動形態のパラメトリゼーションによる統計的発散推定の一手法
特に、近似と経験的推定という2つのエラー源の間には、根本的なトレードオフがある。
NN成長速度がわずかに異なる神経推定器は、最小値の最適値に近づき、パラメトリック収束率を対数因子まで達成できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:42:44Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Statistical Foundation of Variational Bayes Neural Networks [0.456877715768796]
変分ベイズ(VB)は、真の後部からのサンプルの生成に伴う計算コストと時間の複雑さを回避するための有用な代替手段を提供する。
本稿では, フィードフォワード人工ニューラルネットワークモデルにおける平均場変動後部(VP)の後方整合性の基本的結果について述べる。
論文 参考訳(メタデータ) (2020-06-29T03:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。