論文の概要: Verification of indefinite-horizon POMDPs
- arxiv url: http://arxiv.org/abs/2007.00102v1
- Date: Tue, 30 Jun 2020 21:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:55:14.094433
- Title: Verification of indefinite-horizon POMDPs
- Title(参考訳): 不定水平PMDPの検証
- Authors: Alexander Bork, Sebastian Junges, Joost-Pieter Katoen, Tim Quatmann
- Abstract要約: 本稿では,部分観測可能なMDPの検証問題について考察する。
本稿では,Lovejoy-approachの過去のインスタンス化を拡張した抽象化・リファインメント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.6726420864286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The verification problem in MDPs asks whether, for any policy resolving the
nondeterminism, the probability that something bad happens is bounded by some
given threshold. This verification problem is often overly pessimistic, as the
policies it considers may depend on the complete system state. This paper
considers the verification problem for partially observable MDPs, in which the
policies make their decisions based on (the history of) the observations
emitted by the system. We present an abstraction-refinement framework extending
previous instantiations of the Lovejoy-approach. Our experiments show that this
framework significantly improves the scalability of the approach.
- Abstract(参考訳): mdpsの検証問題は、非決定性を解決するポリシーに対して、何か悪いことが起こる確率が与えられたしきい値によって制限されるかどうかを問うものである。
この検証問題は、しばしば過度に悲観的であり、それが考慮しているポリシーは完全なシステム状態に依存する可能性がある。
本稿では,システムによって放出される観測に基づいて,政策が決定を行う部分観測可能なmdpの検証問題について考察する。
lovejoy-approach の以前のインスタンスを拡張した抽象再定義フレームワークを提案する。
実験の結果,このフレームワークはアプローチのスケーラビリティを大幅に改善することがわかった。
関連論文リスト
- Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Towards Using Fully Observable Policies for POMDPs [0.0]
部分的に観測可能なマルコフ決定プロセス(POMDP)は多くの現実世界の問題に適用可能なフレームワークである。
そこで本研究では,POMDPをマルチモーダルな信念で解決する手法を提案する。
論文 参考訳(メタデータ) (2022-07-24T13:22:13Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability [8.388782503421504]
逐次的無知下での動的処理規則の非政治的評価を考察する。
我々は,POMDPにおける非政治評価が,(十分に観察された)マルコフ決定過程における非政治評価よりも厳密であることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:35:23Z) - Smoother Entropy for Active State Trajectory Estimation and Obfuscation
in POMDPs [3.42658286826597]
よりスムーズなエントロピーの最適化は オルタナティブアプローチと比較して 軌道推定と難読化に 繋がる
コンケーブコストとコスト・ツー・ゴー機能によるアクティブ・アセスメントと難読化の両面での信念-状態 MDP の再構成を同定する。
論文 参考訳(メタデータ) (2021-08-19T00:05:55Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Enforcing Almost-Sure Reachability in POMDPs [10.883864654718103]
部分観測可能なマルコフ決定プロセス(POMDP)は、限られた情報の下での逐次決定のためのよく知られたモデルである。
我々は、悪い状態にたどり着くことなく、ほぼ確実に目標状態に達するような、EXPTIMEの難題を考察する。
SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-30T19:59:46Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。