論文の概要: MDP Planning as Policy Inference
- arxiv url: http://arxiv.org/abs/2602.17375v1
- Date: Thu, 19 Feb 2026 13:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.05139
- Title: MDP Planning as Policy Inference
- Title(参考訳): 政策推論としてのMDP計画
- Authors: David Tolpin,
- Abstract要約: 我々は, _policies_に対するベイズ推定として, エピソードマルコフ決定過程(MDP)を立案した。
ポリシーは潜在変数として扱われ、期待されたリターンにおいて単調な最適性の非正規化確率が割り当てられる。
グリッド・ワールド、ブラックジャック、トライアングル・タイアワールド、アカデミック・アドバイザリングを網羅し、推定された政策分布の構造を分析し、その結果の振る舞いを個別のソフト・アクター・クリティカルと比較する。
- 参考スコア(独自算出の注目度): 1.7259824817932294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We cast episodic Markov decision process (MDP) planning as Bayesian inference over _policies_. A policy is treated as the latent variable and is assigned an unnormalized probability of optimality that is monotone in its expected return, yielding a posterior distribution whose modes coincide with return-maximizing solutions while posterior dispersion represents uncertainty over optimal behavior. To approximate this posterior in discrete domains, we adapt variational sequential Monte Carlo (VSMC) to inference over deterministic policies under stochastic dynamics, introducing a sweep that enforces policy consistency across revisited states and couples transition randomness across particles to avoid confounding from simulator noise. Acting is performed by posterior predictive sampling, which induces a stochastic control policy through a Thompson-sampling interpretation rather than entropy regularization. Across grid worlds, Blackjack, Triangle Tireworld, and Academic Advising, we analyze the structure of inferred policy distributions and compare the resulting behavior to discrete Soft Actor-Critic, highlighting qualitative and statistical differences that arise from policy-level uncertainty.
- Abstract(参考訳): 我々は, _policies_に対するベイズ推定として, エピソードマルコフ決定過程(MDP)を立案した。
ポリシーは潜在変数として扱われ、期待されたリターンにおいて単調な最適性の非正規化確率が割り当てられ、モードが戻り最大化解と一致する後続分布が、後続分散は最適挙動よりも不確実性を表す。
この後続領域を離散領域で近似するために、確率力学の下で決定論的ポリシーを推測するために変分連続モンテカルロ (VSMC) を適用し、再検討された状態間のポリシー整合性を強制し、粒子間の遷移ランダム性を結合させ、シミュレータノイズからの干渉を避けるスイープを導入する。
動作は後続の予測サンプリングによって行われ、エントロピー正規化ではなくトンプソンサンプリングの解釈を通じて確率的制御ポリシーを誘導する。
グリッド・ワールド、ブラックジャック、トライアングル・タイアワールド、アカデミック・アドバイザリングを横断的に分析し、予測された政策分布の構造を分析し、その結果の振る舞いを個別のソフト・アクター・クリティカルと比較し、政策レベルの不確実性から生じる質的・統計的差異を強調した。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [10.675160254513615]
連続的な部分観測可能なマルコフ決定プロセスのための新しいポリシー最適化フレームワークを導入する。
本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。
提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文 参考訳(メタデータ) (2025-05-22T14:45:46Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。