論文の概要: \textsc{rfPG}: Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs
- arxiv url: http://arxiv.org/abs/2505.09518v1
- Date: Wed, 14 May 2025 16:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.524635
- Title: \textsc{rfPG}: Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs
- Title(参考訳): 隠れモデルPOMDPのためのロバスト有限メモリポリシー勾配 \textsc{rfPG}
- Authors: Maris F. L. Galesloot, Roman Andriushchenko, Milan Češka, Sebastian Junges, Nils Jansen,
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定において特定の環境をモデル化する。
我々は,HM-POMDPが異なる環境モデル,すなわち共有行動と観測空間を持つPOMDPをキャプチャすることを示す。
ポリシーが与えられたHM-POMDPに対して、それぞれのPOMDPに対して十分な性能を達成した場合、ロバストである。
- 参考スコア(独自算出の注目度): 7.447371788025412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially observable Markov decision processes (POMDPs) model specific environments in sequential decision-making under uncertainty. Critically, optimal policies for POMDPs may not be robust against perturbations in the environment. Hidden-model POMDPs (HM-POMDPs) capture sets of different environment models, that is, POMDPs with a shared action and observation space. The intuition is that the true model is hidden among a set of potential models, and it is unknown which model will be the environment at execution time. A policy is robust for a given HM-POMDP if it achieves sufficient performance for each of its POMDPs. We compute such robust policies by combining two orthogonal techniques: (1) a deductive formal verification technique that supports tractable robust policy evaluation by computing a worst-case POMDP within the HM-POMDP and (2) subgradient ascent to optimize the candidate policy for a worst-case POMDP. The empirical evaluation shows that, compared to various baselines, our approach (1) produces policies that are more robust and generalize better to unseen POMDPs and (2) scales to HM-POMDPs that consist of over a hundred thousand environments.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定において特定の環境をモデル化する。
批判的に、PMDPの最適政策は環境の摂動に対して堅牢ではないかもしれない。
隠れモデルPOMDP(HM-POMDP)は、異なる環境モデル、すなわち共有アクションと観測空間を持つPOMDPの集合をキャプチャする。
直感的には、真のモデルは潜在的なモデルの集合の中に隠されており、どのモデルが実行時に環境になるかは不明です。
ポリシーが与えられたHM-POMDPに対して、それぞれのPOMDPに対して十分な性能を達成した場合、ロバストである。
我々は,(1)HM-POMDP内の最悪のPOMDPを計算し,かつ(2)最悪のPOMDPの候補ポリシーを最適化するために,引き込み可能なロバストなポリシー評価を支援する導出的形式的検証手法を組み合わせることによって,このようなロバストなポリシーを計算する。
実験により,本手法は, 各種ベースラインと比較して, 1) 未確認のPOMDPよりも頑健で, より一般化したポリシーを生成し, (2) 数十万以上の環境からなるHM-POMDPにスケールすることを示した。
関連論文リスト
- Pessimistic Iterative Planning for Robust POMDPs [33.73695799565586]
本稿では,堅牢なメモリベースのPOMDPポリシを計算するための悲観的反復計画(PIP)フレームワークを提案する。
PIP内では、悲観的POMDPに最適化された監督ポリシーを用いて、繰り返しニューラルネットワークを介してFSCを見つけるrFSCNetアルゴリズムを提案する。
各イテレーションでrFSCNetは、悲観的POMDPに最適化された監督ポリシーを使用して、繰り返しニューラルネットワークを介してFSCを見つける。
論文 参考訳(メタデータ) (2024-08-16T14:25:20Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文 参考訳(メタデータ) (2022-08-03T22:02:50Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。