論文の概要: Multi-Environment POMDPs with Finite-Horizon Objectives
- arxiv url: http://arxiv.org/abs/2605.07537v1
- Date: Fri, 08 May 2026 10:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.986773
- Title: Multi-Environment POMDPs with Finite-Horizon Objectives
- Title(参考訳): 有限水平物体を用いた多環境PMDP
- Authors: Léonard Brice, Filip Cano, Krishnendu Chatterjee, Thomas A. Henzinger, Stefanie Muroya,
- Abstract要約: 有限水平目標を用いたMEPOMDPにおける最適値とポリシーの計算に着目する。
本研究の主な成果は,(1) MEPOMDPのより一般的な設定ではPSPACE完全であること,(2)実用的アルゴリズムを提示し,古典的なベンチマークで評価し,これまでに知られていたアルゴリズムよりもはるかに優れていること,である。
- 参考スコア(独自算出の注目度): 12.26940285300484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) are systems in which one agent interacts with a stochastic environment, and receives only partial information about the current state. In a multi-environment POMDP (MEPOMDP), the initial state is unknown, and assumed to be adversarially chosen. In this work we focus on computing the optimal value and policy in MEPOMDPs with finite-horizon objectives. That problem is known to be PSPACE-complete in POMDPs. Our main results are as follows: (1) we establish that it is also PSPACE-complete in the more general setting of MEPOMDPs; (2) we present a practical algorithm and evaluate it on classical benchmarks, significantly outperforming the only previously known algorithm.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、あるエージェントが確率的環境と相互作用し、現在の状態に関する部分的な情報のみを受け取るシステムである。
多環境POMDP(MEPOMDP)では、初期状態が不明であり、逆選択であると仮定される。
本研究は,有限水平目標を用いたMEPOMDPにおける最適値とポリシーの計算に焦点をあてる。
この問題はPMDPではPSPACE完全であることが知られている。
本研究の主な成果は,(1) MEPOMDPのより一般的な設定ではPSPACE完全であること,(2)実用的アルゴリズムを提示し,古典的なベンチマークで評価し,これまでに知られていたアルゴリズムよりもはるかに優れていること,である。
関連論文リスト
- Multi-Environment POMDPs: Discrete Model Uncertainty Under Partial Observability [29.63953552645502]
多環境POMDP(ME-POMDP)は、標準POMDPを離散モデル不確実性で拡張する。
本稿では, ME-POMDP を初期信念の集合を用いて POMDP に一般化可能であることを示す。
次に、AB-POMDPのロバストなポリシーを計算するために、正確で近似的な(ポイントベース)アルゴリズムを考案する。
論文 参考訳(メタデータ) (2025-10-27T18:24:11Z) - Robust Finite-Memory Policy Gradients for Hidden-Model POMDPs [7.447371788025412]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定において特定の環境をモデル化する。
我々は,HM-POMDPが異なる環境モデル,すなわち共有行動と観測空間を持つPOMDPをキャプチャすることを示す。
ポリシーが与えられたHM-POMDPに対して、それぞれのPOMDPに対して十分な性能を達成した場合、ロバストである。
論文 参考訳(メタデータ) (2025-05-14T16:15:58Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Enforcing Almost-Sure Reachability in POMDPs [10.883864654718103]
部分観測可能なマルコフ決定プロセス(POMDP)は、限られた情報の下での逐次決定のためのよく知られたモデルである。
我々は、悪い状態にたどり着くことなく、ほぼ確実に目標状態に達するような、EXPTIMEの難題を考察する。
SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-30T19:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。