論文の概要: Priors Matter: Addressing Misspecification in Bayesian Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2508.21488v1
- Date: Fri, 29 Aug 2025 10:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.007974
- Title: Priors Matter: Addressing Misspecification in Bayesian Deep Q-Learning
- Title(参考訳): ベイジアン深部Q-Learningにおけるミス種別対応の先駆的課題
- Authors: Pascal R. van der Vaart, Neil Yorke-Smith, Matthijs T. J. Spaan,
- Abstract要約: ベイジアン深部Q-ラーニングでは, 後部効果が冷えていることが実証された。
統計的テストを通して、一般的なガウス的仮定が頻繁に破られることを示す。
我々は,今後のベイズ強化学習研究において,より適切な可能性と事前の育成が重要な焦点となるべきだと論じている。
- 参考スコア(独自算出の注目度): 12.02900930453346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification in reinforcement learning can greatly improve exploration and robustness. Approximate Bayesian approaches have recently been popularized to quantify uncertainty in model-free algorithms. However, so far the focus has been on improving the accuracy of the posterior approximation, instead of studying the accuracy of the prior and likelihood assumptions underlying the posterior. In this work, we demonstrate that there is a cold posterior effect in Bayesian deep Q-learning, where contrary to theory, performance increases when reducing the temperature of the posterior. To identify and overcome likely causes, we challenge common assumptions made on the likelihood and priors in Bayesian model-free algorithms. We empirically study prior distributions and show through statistical tests that the common Gaussian likelihood assumption is frequently violated. We argue that developing more suitable likelihoods and priors should be a key focus in future Bayesian reinforcement learning research and we offer simple, implementable solutions for better priors in deep Q-learning that lead to more performant Bayesian algorithms.
- Abstract(参考訳): 強化学習における不確かさの定量化は、探索と堅牢性を大幅に改善することができる。
近似ベイズ的アプローチは、モデルフリーアルゴリズムにおける不確実性を定量化するために最近一般化されている。
しかし、これまでの焦点は後部近似の精度を改善することであり、後部の前提となる前提と仮定の精度を研究することであった。
本研究は,ベイズ深度Q-ラーニングにおいて,後部温度を低下させると,その性能が向上することを示す。
潜在的な原因を特定し、克服するために、ベイズモデルフリーアルゴリズムの確率と先行性に基づく一般的な仮定に挑戦する。
我々は、先行分布を実証的に研究し、一般的なガウス仮説が頻繁に破られるという統計的テストを通して示す。
より適切な可能性と事前の開発は、ベイズ強化学習研究において重要な焦点となるべきであり、より高性能なベイズアルゴリズムにつながる深層Q-ラーニングにおいて、より単純で実装可能なソリューションを提供する。
関連論文リスト
- In-Context Parametric Inference: Point or Distribution Estimators? [66.22308335324239]
償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。
実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T10:00:24Z) - Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Misclassification bounds for PAC-Bayesian sparse deep learning [0.0]
本研究では,Spike-and-Slab を用いた確率論的アプローチの予測誤差と誤分類誤差に関する理論的結果を示す。
その結果, 対数係数まで, 低次元と高次元の両方で最小値の最適値を達成できることが実証された。
論文 参考訳(メタデータ) (2024-05-02T14:11:48Z) - Time-Varying Gaussian Process Bandits with Unknown Prior [18.93478528448966]
PE-GP-UCBは時変ベイズ最適化問題を解くことができる。
これは、観測された関数の値が以前のいくつかの値と一致しているという事実に依存している。
論文 参考訳(メタデータ) (2024-02-02T18:52:16Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Posterior temperature optimized Bayesian models for inverse problems in
medical imaging [59.82184400837329]
本研究は, 医用画像における逆問題に対する非教師的ベイズ的アプローチである。
最適化後温度が精度の向上と不確実性評価に繋がることを示す。
ソースコードは calibrated.com/Cardio-AI/mfvi-dip-mia で公開されています。
論文 参考訳(メタデータ) (2022-02-02T12:16:33Z) - Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks [65.24701908364383]
我々は、ReLUネットワーク上の不確実性に対する十分条件が「少しベイズ校正される」ことを示す。
さらに,これらの知見を,共通深部ReLUネットワークとLaplace近似を用いた各種標準実験により実証的に検証した。
論文 参考訳(メタデータ) (2020-02-24T08:52:06Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z) - How Good is the Bayes Posterior in Deep Neural Networks Really? [46.66866466260469]
我々は、人気のあるディープニューラルネットワークにおけるベイズ後部の現在の理解に疑問を投げかけた。
我々は,ベイズ後縁から誘導される後縁予測が系統的に悪くなることをMCMCサンプリングを用いて実証した。
寒冷な後部を説明できる仮説をいくつか提示し,実験を通じて仮説を評価した。
論文 参考訳(メタデータ) (2020-02-06T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。