論文の概要: Revelations: A Decidable Class of POMDPs with Omega-Regular Objectives
- arxiv url: http://arxiv.org/abs/2412.12063v1
- Date: Mon, 16 Dec 2024 18:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:49.819178
- Title: Revelations: A Decidable Class of POMDPs with Omega-Regular Objectives
- Title(参考訳): Revelations: Omega-Regular Objectivesを用いた決定可能なPOMDPクラス
- Authors: Marius Belly, Nathanaël Fijalkow, Hugo Gimbert, Florian Horn, Guillermo A. Pérez, Pierre Vandenhove,
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、シーケンシャルな意思決定における不確実性の顕著なモデルを形成する。
我々は、エージェントが最終的に現在の状態の完全な情報を持っていることをほぼ確実に要求することで、情報損失を制限する啓示機構を導入する。
これにより、概念的には単純で正確なアルゴリズムが、多種多様なPOMDPに対して得られる。
- 参考スコア(独自算出の注目度): 5.696882834567791
- License:
- Abstract: Partially observable Markov decision processes (POMDPs) form a prominent model for uncertainty in sequential decision making. We are interested in constructing algorithms with theoretical guarantees to determine whether the agent has a strategy ensuring a given specification with probability 1. This well-studied problem is known to be undecidable already for very simple omega-regular objectives, because of the difficulty of reasoning on uncertain events. We introduce a revelation mechanism which restricts information loss by requiring that almost surely the agent has eventually full information of the current state. Our main technical results are to construct exact algorithms for two classes of POMDPs called weakly and strongly revealing. Importantly, the decidable cases reduce to the analysis of a finite belief-support Markov decision process. This yields a conceptually simple and exact algorithm for a large class of POMDPs.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、シーケンシャルな意思決定における不確実性の顕著なモデルを形成する。
確率1で指定された仕様を確実にする戦略をエージェントが持つかどうかを決定するための理論的保証付きアルゴリズムの構築に興味がある。
このよく研究された問題は、不確実事象の推論が困難であるため、非常に単純なオメガ正則な目的に対して既に決定不可能であることが知られている。
我々は、エージェントが最終的に現在の状態の完全な情報を持っていることをほぼ確実に要求することで、情報損失を制限する啓示機構を導入する。
我々の主な技術的成果は、弱い、強い露呈と呼ばれる2種類のPOMDPの正確なアルゴリズムを構築することである。
重要なことに、決定可能なケースは有限信念を支持するマルコフ決定過程の分析に還元される。
これにより、概念的には単純で正確なアルゴリズムが、多種多様なPOMDPに対して得られる。
関連論文リスト
- MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Learning Algorithms for Verification of Markov Decision Processes [20.5951492453299]
マルコフ決定過程(MDP)の検証に学習アルゴリズムを適用するための一般的な枠組みを提案する。
提案するフレームワークは,検証における中核的な問題である確率的到達性に重点を置いている。
論文 参考訳(メタデータ) (2024-03-14T08:54:19Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Oracle-Efficient Regret Minimization in Factored MDPs with Unknown
Structure [57.90236104782219]
非絶対因子化マルコフ決定過程(FMDP)における後悔の研究
既存の全てのアルゴリズムは、FMDPの因子構造が学習者に事前に知られていると強く仮定する。
後悔を最小限に抑えながらFMDPの構造を学習する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-13T12:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。