論文の概要: Multi-Environment POMDPs: Discrete Model Uncertainty Under Partial Observability
- arxiv url: http://arxiv.org/abs/2510.23744v1
- Date: Mon, 27 Oct 2025 18:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.411894
- Title: Multi-Environment POMDPs: Discrete Model Uncertainty Under Partial Observability
- Title(参考訳): 多環境PMDP:部分観測可能性下での離散モデル不確かさ
- Authors: Eline M. Bovy, Caleb Probine, Marnix Suilen, Ufuk Topcu, Nils Jansen,
- Abstract要約: 多環境POMDP(ME-POMDP)は、標準POMDPを離散モデル不確実性で拡張する。
本稿では, ME-POMDP を初期信念の集合を用いて POMDP に一般化可能であることを示す。
次に、AB-POMDPのロバストなポリシーを計算するために、正確で近似的な(ポイントベース)アルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 29.63953552645502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-environment POMDPs (ME-POMDPs) extend standard POMDPs with discrete model uncertainty. ME-POMDPs represent a finite set of POMDPs that share the same state, action, and observation spaces, but may arbitrarily vary in their transition, observation, and reward models. Such models arise, for instance, when multiple domain experts disagree on how to model a problem. The goal is to find a single policy that is robust against any choice of POMDP within the set, i.e., a policy that maximizes the worst-case reward across all POMDPs. We generalize and expand on existing work in the following way. First, we show that ME-POMDPs can be generalized to POMDPs with sets of initial beliefs, which we call adversarial-belief POMDPs (AB-POMDPs). Second, we show that any arbitrary ME-POMDP can be reduced to a ME-POMDP that only varies in its transition and reward functions or only in its observation and reward functions, while preserving (optimal) policies. We then devise exact and approximate (point-based) algorithms to compute robust policies for AB-POMDPs, and thus ME-POMDPs. We demonstrate that we can compute policies for standard POMDP benchmarks extended to the multi-environment setting.
- Abstract(参考訳): 多環境POMDP(ME-POMDP)は、標準POMDPを離散モデル不確実性で拡張する。
ME-POMDPは、同じ状態、行動、観測空間を共有するPOMDPの有限集合を表すが、遷移、観測、報酬モデルにおいて任意に異なる可能性がある。
例えば、複数のドメインの専門家が問題をモデル化する方法に異を唱えたときに、そのようなモデルが発生する。
目標は、セット内の任意のPOMDPの選択に対して堅牢な単一のポリシーを見つけることであり、すなわち、すべてのPOMDPの中で最悪の報酬を最大化するポリシーである。
既存の作業を次のように一般化し、拡張する。
まず,ME-POMDP を初期信念のセットで POMDP に一般化できることを示し,それを AB-POMDP (Adversarial-Belief POMDPs) と呼ぶ。
第2に,任意の ME-POMDP を ME-POMDP に還元できることを示す。
次に,AB-POMDPのロバストポリシ,すなわちME-POMDPの厳密かつ近似的なアルゴリズムを考案する。
マルチ環境設定まで拡張された標準PMDPベンチマークのポリシーを計算できることを実証する。
関連論文リスト
- Scalable Policy-Based RL Algorithms for POMDPs [6.2229686397601585]
我々は、POMDPモデルを有限状態マルコフ決定プロセス(MDP)に近似することにより、部分観測可能強化学習(PORL)問題を解決するアプローチを検討する。
近似誤差はこの履歴の長さとともに指数関数的に減少することを示す。
我々の知識を最大限に活用するために、我々の有限時間境界は、真の力学がマルコフ的でない設定に標準的TD学習を適用する際に導入された誤差を明示的に定量化する最初のものである。
論文 参考訳(メタデータ) (2025-10-08T00:33:38Z) - Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs [7.447371788025412]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定において特定の環境をモデル化する。
我々は,HM-POMDPが異なる環境モデル,すなわち共有行動と観測空間を持つPOMDPをキャプチャすることを示す。
ポリシーが与えられたHM-POMDPに対して、それぞれのPOMDPに対して十分な性能を達成した場合、ロバストである。
論文 参考訳(メタデータ) (2025-05-14T16:15:58Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。