論文の概要: Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs
- arxiv url: http://arxiv.org/abs/2406.02456v1
- Date: Tue, 4 Jun 2024 16:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:20:58.491172
- Title: Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs
- Title(参考訳): 有限状態MDPにおけるオフラインベイズアレタリックおよびてんかん不確かさの定量化と後値最適化
- Authors: Filippo Valdettaro, A. Aldo Faisal,
- Abstract要約: 有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
- 参考スコア(独自算出の注目度): 3.1139806580181006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of quantifying Bayesian uncertainty and incorporating it in offline use cases of finite-state Markov Decision Processes (MDPs) with unknown dynamics. Our approach provides a principled method to disentangle epistemic and aleatoric uncertainty, and a novel technique to find policies that optimise Bayesian posterior expected value without relying on strong assumptions about the MDP's posterior distribution. First, we utilise standard Bayesian reinforcement learning methods to capture the posterior uncertainty in MDP parameters based on available data. We then analytically compute the first two moments of the return distribution across posterior samples and apply the law of total variance to disentangle aleatoric and epistemic uncertainties. To find policies that maximise posterior expected value, we leverage the closed-form expression for value as a function of policy. This allows us to propose a stochastic gradient-based approach for solving the problem. We illustrate the uncertainty quantification and Bayesian posterior value optimisation performance of our agent in simple, interpretable gridworlds and validate it through ground-truth evaluations on synthetic MDPs. Finally, we highlight the real-world impact and computational scalability of our method by applying it to the AI Clinician problem, which recommends treatment for patients in intensive care units and has emerged as a key use case of finite-state MDPs with offline data. We discuss the challenges that arise with Bayesian modelling of larger scale MDPs while demonstrating the potential to apply our methods rooted in Bayesian decision theory into the real world. We make our code available at https://github.com/filippovaldettaro/finite-state-mdps .
- Abstract(参考訳): 我々はベイズの不確実性を定量化し、それを未知の力学を持つ有限状態マルコフ決定過程(MDP)のオフラインユースケースに組み込むという課題に対処する。
本手法は,MDPの後方分布に関する強い仮定に頼ることなく,ベイジアンの後方予測値を最適化する新手法を提案する。
まず、標準ベイズ強化学習法を用いて、利用可能なデータに基づいて、MDPパラメータの後方不確実性を捉える。
次に, 後部サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し, 総分散の法則を適用した。
後続の期待値を最大化するポリシを見つけるために、ポリシの関数として値のクローズドフォーム表現を利用する。
これにより、この問題を解決するための確率的勾配に基づくアプローチを提案することができる。
本稿では, 単純かつ解釈可能なグリッドワールドにおけるエージェントの不確実性定量化とベイズ的後値最適化性能について述べる。
最後に,集中治療単位の患者に対する治療を推奨するAIクリニック問題に適用することで,本手法の現実的な影響と計算スケーラビリティを強調し,オフラインデータを用いた有限状態MDPのキーケースとして登場した。
我々は,ベイズ決定理論に根ざした手法を実世界に適用する可能性を示した上で,大規模MDPのベイズ的モデリングで生じる課題について論じる。
コードはhttps://github.com/filippovaldettaro/finite-state-mdpsで公開しています。
関連論文リスト
- Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Generative Posterior Networks for Approximately Bayesian Epistemic
Uncertainty Estimation [11.66240919177989]
本稿では,ラベルのないデータを用いて高次元問題における不確実性を推定するGPN(Generative Posterior Networks)を提案する。
GPNは、関数上の事前分布を与えられた後続分布を直接近似する生成モデルである。
論文 参考訳(メタデータ) (2023-12-29T00:43:41Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。