論文の概要: Imprecise Probabilities Meet Partial Observability: Game Semantics for Robust POMDPs
- arxiv url: http://arxiv.org/abs/2405.04941v1
- Date: Wed, 8 May 2024 10:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:54:31.144088
- Title: Imprecise Probabilities Meet Partial Observability: Game Semantics for Robust POMDPs
- Title(参考訳): 不正確な確率に部分的可観測性:ロバストなPMDPのためのゲームセマンティクス
- Authors: Eline M. Bovy, Marnix Suilen, Sebastian Junges, Nils Jansen,
- Abstract要約: 我々は、不確実性集合上の異なる仮定が最適ポリシーや値に影響を与えることを示すことによって、POMDPの理論的理解を拡張した。
異なる仮定を持つ同一の RPOMDP が意味的に異なるPOSG をもたらし、したがって異なるポリシーと値をもたらすことを示す。
RPOMDPSのこれらの新しいセマンティクスは、広く研究されているPOSGモデルの結果にアクセスできる。
- 参考スコア(独自算出の注目度): 10.944237572149893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov decision processes (POMDPs) rely on the key assumption that probability distributions are precisely known. Robust POMDPs (RPOMDPs) alleviate this concern by defining imprecise probabilities, referred to as uncertainty sets. While robust MDPs have been studied extensively, work on RPOMDPs is limited and primarily focuses on algorithmic solution methods. We expand the theoretical understanding of RPOMDPs by showing that 1) different assumptions on the uncertainty sets affect optimal policies and values; 2) RPOMDPs have a partially observable stochastic game (POSG) semantic; and 3) the same RPOMDP with different assumptions leads to semantically different POSGs and, thus, different policies and values. These novel semantics for RPOMDPS give access to results for the widely studied POSG model; concretely, we show the existence of a Nash equilibrium. Finally, we classify the existing RPOMDP literature using our semantics, clarifying under which uncertainty assumptions these existing works operate.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)は確率分布が正確に知られているという重要な仮定に依存している。
ロバストPOMDP(RPOMDP)は不確実性集合と呼ばれる不正確な確率を定義することによって、この懸念を緩和する。
堅牢なMDPは広く研究されているが、RPOMDPの研究は限られており、主にアルゴリズム的な解法に焦点を当てている。
我々は、RPOMDPの理論的理解を拡大する。
1) 不確実性集合に関する異なる仮定は、最適な政策及び価値に影響を与える。
2) RPOMDP は部分的に観測可能な確率ゲーム (POSG) を持っている。
3) 異なる仮定を持つ同一の RPOMDP は意味的に異なるPOSG をもたらし、したがって異なるポリシーと値となる。
RPOMDPSのこれらの新しいセマンティクスは、広く研究されているPOSGモデルの結果へのアクセスを与え、具体的には、ナッシュ平衡の存在を示す。
最後に,既存のRPOMDP文献をセマンティクスを用いて分類し,これらの研究がどのような不確実性を想定しているかを明らかにする。
関連論文リスト
- Pessimistic Iterative Planning for Robust POMDPs [33.73695799565586]
堅牢なPOMDPのポリシーは、部分的な可観測性のためにメモリベースでなければならない。
我々は,堅牢なPOMDPのための堅牢なメモリベースのポリシーを見出すための悲観的反復計画(PIP)フレームワークを提案する。
それぞれ、rFSCNetは、敵POMDPに最適化された監督ポリシーを使用して、繰り返しニューラルネットワークを介してFSCを見つける。
論文 参考訳(メタデータ) (2024-08-16T14:25:20Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Towards Return Parity in Markov Decision Processes [36.96748490812215]
マルコフ決定過程(MDP)における公平性問題について検討する。
我々は、異なる人口集団のMDPが同じ報酬を達成するために必要となるフェアネスの概念であるリターンパリティを提案する。
解析定理により、状態訪問分布アライメントを伴う共有グループポリシーを学習することにより、戻り値の不一致を軽減するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-19T23:25:38Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces [5.732271870257913]
不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-08T09:31:48Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。