論文の概要: Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles
- arxiv url: http://arxiv.org/abs/2406.05469v1
- Date: Sat, 8 Jun 2024 13:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:35:37.897724
- Title: Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles
- Title(参考訳): Bayesian vs. PAC-Bayesian Deep Neural Network アンサンブル
- Authors: Nick Hauptvogel, Christian Igel,
- Abstract要約: ベイズアンサンブルのサンプリングや重み付けは,特に一般化性能の向上には適していない。
文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な一様重み付きディープアンサンブルよりも改善されていないことを示す。
- 参考スコア(独自算出の注目度): 7.883369697332076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian neural networks address epistemic uncertainty by learning a posterior distribution over model parameters. Sampling and weighting networks according to this posterior yields an ensemble model referred to as Bayes ensemble. Ensembles of neural networks (deep ensembles) can profit from the cancellation of errors effect: Errors by ensemble members may average out and the deep ensemble achieves better predictive performance than each individual network. We argue that neither the sampling nor the weighting in a Bayes ensemble are particularly well-suited for increasing generalization performance, as they do not support the cancellation of errors effect, which is evident in the limit from the Bernstein-von~Mises theorem for misspecified models. In contrast, a weighted average of models where the weights are optimized by minimizing a PAC-Bayesian generalization bound can improve generalization performance. This requires that the optimization takes correlations between models into account, which can be achieved by minimizing the tandem loss at the cost that hold-out data for estimating error correlations need to be available. The PAC-Bayesian weighting increases the robustness against correlated models and models with lower performance in an ensemble. This allows us to safely add several models from the same learning process to an ensemble, instead of using early-stopping for selecting a single weight configuration. Our study presents empirical results supporting these conceptual considerations on four different classification datasets. We show that state-of-the-art Bayes ensembles from the literature, despite being computationally demanding, do not improve over simple uniformly weighted deep ensembles and cannot match the performance of deep ensembles weighted by optimizing the tandem loss, which additionally come with non-vacuous generalization guarantees.
- Abstract(参考訳): ベイズニューラルネットワークは、モデルパラメータの後方分布を学習することで、てんかんの不確実性に対処する。
この後続のネットワークのサンプリングと重み付けは、ベイズアンサンブルと呼ばれるアンサンブルモデルを生成する。
ニューラルネットワークのアンサンブル(ディープアンサンブル)は、エラー効果のキャンセルによって利益を得ることができる: アンサンブルメンバーによるエラーは平均アウトし、ディープアンサンブルは個々のネットワークよりも優れた予測性能を達成する。
ベイズアンサンブルのサンプリングや重み付けは、不特定モデルに対するベルンシュタイン・ヴォン–ミゼス定理の極限で明らかな誤差効果のキャンセルをサポートしないため、一般化性能の向上には特に適していない。
対照的に、PAC-ベイジアン一般化境界の最小化により重みが最適化されるモデルの重み付き平均は、一般化性能を向上させることができる。
この最適化はモデル間の相関を考慮に入れ、誤差相関を推定するためのデータを保持するコストでタンデム損失を最小限にすることで達成できる。
PAC-ベイズ重み付けは、アンサンブル内の低い性能を持つ相関モデルやモデルに対するロバスト性を高める。
これにより、シングルウェイト構成を選択するのにアーリーストッピングを使うのではなく、同じ学習プロセスから複数のモデルをアンサンブルに安全に追加することができます。
本研究は,4つの分類データセットにおける概念的考察を支援する実証的な結果を示す。
文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な重み付きディープアンサンブルよりも改善せず、タンデム損失を最適化することで重み付けされたディープアンサンブルの性能と一致しない。
関連論文リスト
- EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。
アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。
我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。
我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:16:35Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Learning to Solve Routing Problems via Distributionally Robust
Optimization [14.506553345693536]
ルーティング問題を解決するための最近のディープモデルでは、トレーニング用のノードの単一分布が想定されており、分散一般化能力を著しく損なう。
この問題に対処するために、群分布的ロバストな最適化(グループDRO)を活用し、異なる分布群に対する重み付けと深層モデルのパラメータを、トレーニング中にインターリーブされた方法で共同で最適化する。
また、畳み込みニューラルネットワークに基づくモジュールを設計し、ディープモデルがノード間のより情報に富んだ潜在パターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-02-15T08:06:44Z) - Repulsive Deep Ensembles are Bayesian [6.544954579068863]
ディープアンサンブルの更新規則にカーネル化された反発項を導入する。
この単純な修正は、メンバー間の多様性を強制し維持するだけでなく、さらに重要なことは、最大後の推論を適切なベイズ推論に変換することである。
論文 参考訳(メタデータ) (2021-06-22T09:50:28Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - VAE Approximation Error: ELBO and Conditional Independence [78.72292013299868]
本稿では,ELBO目標とエンコーダ確率系列の選択の組み合わせによるVAE近似誤差を解析する。
より深いエンコーダネットワークを考慮すれば,ELBOサブセットを拡大することができず,各エラーを低減できないことを示す。
論文 参考訳(メタデータ) (2021-02-18T12:54:42Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。