論文の概要: Bayesian learning of the optimal action-value function in a Markov decision process
- arxiv url: http://arxiv.org/abs/2505.01859v1
- Date: Sat, 03 May 2025 16:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.299606
- Title: Bayesian learning of the optimal action-value function in a Markov decision process
- Title(参考訳): マルコフ決定過程における最適作用値関数のベイズ学習
- Authors: Jiaqi Guo, Chon Wai Ho, Sumeetpal S. Singh,
- Abstract要約: 私たちは、モデリングから推論、意思決定まで、完全なベイズ的なフレームワークを提供しています。
推論のために,緩やかな後部分布の列をサンプリングし,調整するために,適応的な連続モンテカルロアルゴリズムを提案する。
一般的に行われているが、マルチアームバンディット問題からのトンプソンサンプリングの一般化であることを示す新しい洞察を提供する。
- 参考スコア(独自算出の注目度): 7.186805722297615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Markov Decision Process (MDP) is a popular framework for sequential decision-making problems, and uncertainty quantification is an essential component of it to learn optimal decision-making strategies. In particular, a Bayesian framework is used to maintain beliefs about the optimal decisions and the unknown ingredients of the model, which are also to be learned from the data, such as the rewards and state dynamics. However, many existing Bayesian approaches for learning the optimal decision-making strategy are based on unrealistic modelling assumptions and utilise approximate inference techniques. This raises doubts whether the benefits of Bayesian uncertainty quantification are fully realised or can be relied upon. We focus on infinite-horizon and undiscounted MDPs, with finite state and action spaces, and a terminal state. We provide a full Bayesian framework, from modelling to inference to decision-making. For modelling, we introduce a likelihood function with minimal assumptions for learning the optimal action-value function based on Bellman's optimality equations, analyse its properties, and clarify connections to existing works. For deterministic rewards, the likelihood is degenerate and we introduce artificial observation noise to relax it, in a controlled manner, to facilitate more efficient Monte Carlo-based inference. For inference, we propose an adaptive sequential Monte Carlo algorithm to both sample from and adjust the sequence of relaxed posterior distributions. For decision-making, we choose actions using samples from the posterior distribution over the optimal strategies. While commonly done, we provide new insight that clearly shows that it is a generalisation of Thompson sampling from multi-arm bandit problems. Finally, we evaluate our framework on the Deep Sea benchmark problem and demonstrate the exploration benefits of posterior sampling in MDPs.
- Abstract(参考訳): マルコフ決定プロセス(MDP)はシーケンシャルな意思決定問題のための一般的なフレームワークであり、不確実性定量化は最適な意思決定戦略を学ぶための重要な要素である。
特に、ベイジアンフレームワークは、最適決定とモデルの未知の要素についての信念を維持するために使用され、報酬や状態力学のようなデータからも学べる。
しかし、最適な意思決定戦略を学ぶためのベイズ的アプローチの多くは、非現実的なモデリング仮定に基づいており、近似推論技術を利用している。
このことは、ベイズの不確実性定量化の利点が完全に実現されているか、信頼できるかどうかという疑問を提起する。
我々は、有限状態と作用空間と終状態を持つ無限水平かつ非割当なMDPに焦点を当てる。
私たちは、モデリングから推論、意思決定まで、完全なベイズ的なフレームワークを提供しています。
モデリングには、ベルマンの最適性方程式に基づいて最適作用値関数を学習し、その性質を解析し、既存の作業との関係を明らかにするため、最小限の仮定を持つ可能性関数を導入する。
決定論的報奨は、縮退する可能性があり、制御された方法で、より効率的なモンテカルロに基づく推論を促進するために、人工的な観測ノイズを導入する。
推論のために,緩やかな後部分布の列をサンプリングし,調整するために,適応的な連続モンテカルロアルゴリズムを提案する。
意思決定には,最適戦略よりも後方分布からのサンプルを用いて行動を選択する。
一般的に行われているが、マルチアームバンディット問題からのトンプソンサンプリングの一般化であることを示す新しい洞察を提供する。
最後に, ディープシーベンチマークの枠組みを検証し, MDPにおける後方サンプリングの探索的利点を実証する。
関連論文リスト
- Optimality in importance sampling: a gentle survey [50.79602839359522]
モンテカルロサンプリング法の性能は、提案密度の重要な選択に依存する。
この研究は、重要サンプリングにおける最適性の概念に関する徹底的なレビューである。
論文 参考訳(メタデータ) (2025-02-11T09:23:26Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。