論文の概要: Missingness-MDPs: Bridging the Theory of Missing Data and POMDPs
- arxiv url: http://arxiv.org/abs/2605.12262v1
- Date: Tue, 12 May 2026 15:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.964131
- Title: Missingness-MDPs: Bridging the Theory of Missing Data and POMDPs
- Title(参考訳): 欠失データ-MDP: 欠失データとPMDPの理論を橋渡しする
- Authors: Joshua Wendland, Markel Zubia, Roman Andriushchenko, Maris F. L. Galesloot, Milan Ceska, Henrik von Kleist, Thiago D. Simao, Maximilian Weininger, Nils Jansen,
- Abstract要約: 我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)の新たなサブクラスである欠失MDP(miss-MDPs)を導入する。
ミス-MDP(ミス-MDP)は、観察機能が欠落機能であるPOMDPであり、個々の状態特徴が欠落している確率を指定する。
- 参考スコア(独自算出の注目度): 10.130230950347475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce missingness-MDPs (miss-MDPs), a novel subclass of partially observable Markov decision processes (POMDPs) that incorporates the theory of missing data. A miss-MDP is a POMDP whose observation function is a missingness function, specifying the probability that individual state features are missing (i.e., unobserved) at a time step. The literature distinguishes three canonical missingness types: missing (1) completely at random (MCAR), (2) at random (MAR), and (3) not at random (MNAR). Our planning problem is to compute near-optimal policies for a miss-MDP with an unknown missingness function, given a dataset of action-observation trajectories. Achieving such optimality guarantees for policies requires learning the missingness function from data, which is infeasible for general POMDPs. To overcome this challenge, we exploit the structural properties of different missingness types to derive probably approximately correct (PAC) algorithms for learning the missingness function. These algorithms yield an approximate but fully specified miss-MDP that we solve using off-the-shelf planning methods. We prove that, with high probability, the resulting policies are epsilon-optimal in the true miss-MDP. Empirical results confirm the theory and demonstrate superior performance of our approach over two model-free POMDP methods.
- Abstract(参考訳): 我々は、欠落データ理論を取り入れた部分的に観測可能なマルコフ決定プロセス(POMDP)の新たなサブクラスである欠落データMDP(miss-MDPs)を紹介する。
ミス-MDP(Miss-MDP)は、観測機能が欠落関数であるPOMDPであり、個々の状態特徴が欠落している確率(すなわち、観測されていない確率)を時間ステップで指定する。
文献は、(1)完全無作為(MCAR)、(2)無作為(MAR)、(3)無作為(MNAR)の3つの標準的欠落タイプを区別している。
我々の計画課題は、行動観測軌道のデータセットを考えると、未知の欠損関数を持つミスMDPのほぼ最適ポリシーを計算することである。
このようなポリシーの最適性を保証するためには、一般的なPOMDPでは不可能なデータから不足関数を学習する必要がある。
この課題を克服するために、異なる欠失型の構造的特性を利用して、欠失関数を学習するために、おそらくほぼ正しいPACアルゴリズムを導出する。
これらのアルゴリズムは、オフザシェルフ計画法を用いて解決する、近似的だが完全に指定されたミスMDPを生成する。
高い確率で、結果のポリシーが真のミス-MDPにおいてエプシロン最適であることが証明される。
実験結果から,2つのモデルフリーPOMDP法に対する提案手法の有効性が検証された。
関連論文リスト
- Robust Parameter Learning for Uncertain MDPs [55.60489406616378]
未知のマルコフ決定過程(MDP)を検証するための学習ベースのアプローチは、しばしば不確実なMDPを用いる。
本稿では,パラメータの集合上で遷移確率が表現されるパラメトリックMDP(pMDP)を用いて,そのようなモデルを学習することを提案する。
我々は、経験的遷移周波数からの統計的不確実性をpMDPのパラメータ空間に予測し、基礎となるMDPに対してほぼ正しい(PAC)不確実性モデルを生成する。
論文 参考訳(メタデータ) (2026-05-02T09:22:05Z) - Learning Algorithms for Verification of Markov Decision Processes [20.5951492453299]
マルコフ決定過程(MDP)の検証に学習アルゴリズムを適用するための一般的な枠組みを提案する。
提案するフレームワークは,検証における中核的な問題である確率的到達性に重点を置いている。
論文 参考訳(メタデータ) (2024-03-14T08:54:19Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - PAC Statistical Model Checking of Mean Payoff in Discrete- and
Continuous-Time MDP [0.34410212782758043]
我々は,未知のMDPにおいて,平均ペイオフをほぼ正確に計算する最初のアルゴリズムを提供する。
状態空間に関する知識は一切必要とせず、最小遷移確率の低い境界のみである。
提案アルゴリズムは, ほぼ正しいPAC境界を提供するだけでなく, 標準ベンチマークで実験を行うことにより, その実用性を実証する。
論文 参考訳(メタデータ) (2022-06-03T09:13:27Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Reward is enough for convex MDPs [30.478950691312715]
静止分布の凸関数として目標が表現される凸MDPについて検討する。
本稿では,この問題を解決するメタアルゴリズムを提案し,文献における既存のアルゴリズムを統一することを示す。
論文 参考訳(メタデータ) (2021-06-01T17:46:25Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。