論文の概要: Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles
- arxiv url: http://arxiv.org/abs/2406.05469v1
- Date: Sat, 8 Jun 2024 13:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:35:37.897724
- Title: Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles
- Title(参考訳): Bayesian vs. PAC-Bayesian Deep Neural Network アンサンブル
- Authors: Nick Hauptvogel, Christian Igel,
- Abstract要約: ベイズアンサンブルのサンプリングや重み付けは,特に一般化性能の向上には適していない。
文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な一様重み付きディープアンサンブルよりも改善されていないことを示す。
- 参考スコア(独自算出の注目度): 7.883369697332076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian neural networks address epistemic uncertainty by learning a posterior distribution over model parameters. Sampling and weighting networks according to this posterior yields an ensemble model referred to as Bayes ensemble. Ensembles of neural networks (deep ensembles) can profit from the cancellation of errors effect: Errors by ensemble members may average out and the deep ensemble achieves better predictive performance than each individual network. We argue that neither the sampling nor the weighting in a Bayes ensemble are particularly well-suited for increasing generalization performance, as they do not support the cancellation of errors effect, which is evident in the limit from the Bernstein-von~Mises theorem for misspecified models. In contrast, a weighted average of models where the weights are optimized by minimizing a PAC-Bayesian generalization bound can improve generalization performance. This requires that the optimization takes correlations between models into account, which can be achieved by minimizing the tandem loss at the cost that hold-out data for estimating error correlations need to be available. The PAC-Bayesian weighting increases the robustness against correlated models and models with lower performance in an ensemble. This allows us to safely add several models from the same learning process to an ensemble, instead of using early-stopping for selecting a single weight configuration. Our study presents empirical results supporting these conceptual considerations on four different classification datasets. We show that state-of-the-art Bayes ensembles from the literature, despite being computationally demanding, do not improve over simple uniformly weighted deep ensembles and cannot match the performance of deep ensembles weighted by optimizing the tandem loss, which additionally come with non-vacuous generalization guarantees.
- Abstract(参考訳): ベイズニューラルネットワークは、モデルパラメータの後方分布を学習することで、てんかんの不確実性に対処する。
この後続のネットワークのサンプリングと重み付けは、ベイズアンサンブルと呼ばれるアンサンブルモデルを生成する。
ニューラルネットワークのアンサンブル(ディープアンサンブル)は、エラー効果のキャンセルによって利益を得ることができる: アンサンブルメンバーによるエラーは平均アウトし、ディープアンサンブルは個々のネットワークよりも優れた予測性能を達成する。
ベイズアンサンブルのサンプリングや重み付けは、不特定モデルに対するベルンシュタイン・ヴォン–ミゼス定理の極限で明らかな誤差効果のキャンセルをサポートしないため、一般化性能の向上には特に適していない。
対照的に、PAC-ベイジアン一般化境界の最小化により重みが最適化されるモデルの重み付き平均は、一般化性能を向上させることができる。
この最適化はモデル間の相関を考慮に入れ、誤差相関を推定するためのデータを保持するコストでタンデム損失を最小限にすることで達成できる。
PAC-ベイズ重み付けは、アンサンブル内の低い性能を持つ相関モデルやモデルに対するロバスト性を高める。
これにより、シングルウェイト構成を選択するのにアーリーストッピングを使うのではなく、同じ学習プロセスから複数のモデルをアンサンブルに安全に追加することができます。
本研究は,4つの分類データセットにおける概念的考察を支援する実証的な結果を示す。
文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な重み付きディープアンサンブルよりも改善せず、タンデム損失を最適化することで重み付けされたディープアンサンブルの性能と一致しない。
関連論文リスト
- Network reconstruction via the minimum description length principle [0.0]
階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長 (MDL) の原理に従い, データの最大圧縮を可能にする重み分布を明らかにする。
提案手法は, 人工ネットワークと経験ネットワークの再構築において, 体系的に精度を向上することを示した。
論文 参考訳(メタデータ) (2024-05-02T05:35:09Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Learning to Solve Routing Problems via Distributionally Robust
Optimization [14.506553345693536]
ルーティング問題を解決するための最近のディープモデルでは、トレーニング用のノードの単一分布が想定されており、分散一般化能力を著しく損なう。
この問題に対処するために、群分布的ロバストな最適化(グループDRO)を活用し、異なる分布群に対する重み付けと深層モデルのパラメータを、トレーニング中にインターリーブされた方法で共同で最適化する。
また、畳み込みニューラルネットワークに基づくモジュールを設計し、ディープモデルがノード間のより情報に富んだ潜在パターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-02-15T08:06:44Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。