論文の概要: Bayesian Exploration Networks
- arxiv url: http://arxiv.org/abs/2308.13049v1
- Date: Thu, 24 Aug 2023 19:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:02:48.692473
- Title: Bayesian Exploration Networks
- Title(参考訳): ベイジアン探査網
- Authors: Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt and
Shimon Whiteson
- Abstract要約: ベイズ RL の鍵となる課題は、ベイズ最適化ポリシーを学習する際の計算複雑性である。
この課題に対処するための新しいモデルフリーアプローチを提案する。
提案手法は,既存のモデルフリーアプローチが失敗するタスクにおいて,ベイズ最適ポリシーを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 30.98996034003365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian reinforcement learning (RL) offers a principled and elegant approach
for sequential decision making under uncertainty. Most notably, Bayesian agents
do not face an exploration/exploitation dilemma, a major pathology of
frequentist methods. A key challenge for Bayesian RL is the computational
complexity of learning Bayes-optimal policies, which is only tractable in toy
domains. In this paper we propose a novel model-free approach to address this
challenge. Rather than modelling uncertainty in high-dimensional state
transition distributions as model-based approaches do, we model uncertainty in
a one-dimensional Bellman operator. Our theoretical analysis reveals that
existing model-free approaches either do not propagate epistemic uncertainty
through the MDP or optimise over a set of contextual policies instead of all
history-conditioned policies. Both approximations yield policies that can be
arbitrarily Bayes-suboptimal. To overcome these issues, we introduce the
Bayesian exploration network (BEN) which uses normalising flows to model both
the aleatoric uncertainty (via density estimation) and epistemic uncertainty
(via variational inference) in the Bellman operator. In the limit of complete
optimisation, BEN learns true Bayes-optimal policies, but like in variational
expectation-maximisation, partial optimisation renders our approach tractable.
Empirical results demonstrate that BEN can learn true Bayes-optimal policies in
tasks where existing model-free approaches fail.
- Abstract(参考訳): ベイズ強化学習(RL)は、不確実性の下でのシーケンシャルな意思決定に原則的でエレガントなアプローチを提供する。
特に、ベイズエージェントは、頻繁な方法の主要な病理である探索/探索ジレンマに直面しない。
ベイズ RL の鍵となる課題は、おもちゃの領域でしか扱えないベイズ最適化ポリシーを学習する計算複雑性である。
本稿では,この課題に対処する新しいモデルフリーアプローチを提案する。
高次元状態遷移分布における不確かさをモデルベースアプローチのようにモデル化するのではなく、一次元ベルマン作用素における不確かさをモデル化する。
理論的分析により,既存のモデルフリーアプローチは,mdpを通じて認識論的不確実性が伝播しないか,あるいはすべての履歴条件付きポリシではなく,一連の文脈的ポリシを最適化しないことが明らかとなった。
どちらの近似も任意にベイズ準最適となるような方針を与える。
これらの問題を克服するために,ベルマン作用素のアレタリック不確実性(密度推定)とエピステミック不確実性(変動推論)の両方をモデル化するために,正規化フローを用いたベイズ探索ネットワーク(BEN)を導入する。
完全最適化の限界において、BENは真のベイズ最適化ポリシーを学習するが、変分期待最大化と同様に、部分最適化は我々のアプローチを引き付けることができる。
実証的な結果は、BENが既存のモデルフリーアプローチが失敗するタスクにおいて、真のベイズ最適化ポリシーを学習できることを示しています。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Continuous Bayesian Model Selection for Multivariate Causal Discovery [22.945274948173182]
現在の因果的発見アプローチは、構造的識別可能性を確保するために、限定的なモデル仮定や介入データへのアクセスを必要とする。
近年の研究では、ベイズモデルの選択はより柔軟な仮定のために制限的モデリングを交換することで精度を大幅に向上させることができることが示されている。
合成データセットと実世界のデータセットの両方において、我々のアプローチの競争力を実証する。
論文 参考訳(メタデータ) (2024-11-15T12:55:05Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Model-based Causal Bayesian Optimization [78.120734120667]
モデルに基づく因果ベイズ最適化(MCBO)を提案する。
MCBOは介入と逆のペアをモデリングするのではなく、完全なシステムモデルを学ぶ。
標準的なベイズ最適化とは異なり、我々の取得関数は閉形式では評価できない。
論文 参考訳(メタデータ) (2022-11-18T14:28:21Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。
ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。
また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-29T21:17:25Z) - Bayesian Quantile and Expectile Optimisation [3.3878745408530833]
本研究では,非定常雑音設定に適したベイズ量子と予測回帰の新しい変分モデルを提案する。
我々の戦略は、観測の複製やノイズのパラメトリック形式を仮定することなく、量子と予測を直接最適化することができる。
実験セクションで示されるように、提案手法は異端性非ガウス的ケースにおいて、明らかに芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-01-12T20:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。