論文の概要: A Finite-State Controller Based Offline Solver for Deterministic POMDPs
- arxiv url: http://arxiv.org/abs/2505.00596v1
- Date: Thu, 01 May 2025 15:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.354511
- Title: A Finite-State Controller Based Offline Solver for Deterministic POMDPs
- Title(参考訳): 有限状態制御系を用いた決定論的POMDPのためのオフライン解法
- Authors: Alex Schutz, Yang You, Matias Mattamala, Ipek Caliskanelli, Bruno Lacerda, Nick Hawes,
- Abstract要約: DetPOMDPに対するモンテカルロ値イテレーション(MCVI)アルゴリズムの適応であるDetMCVIを提案する。
DetMCVIは、DetPOMDPの既存のベースラインを上回り、高い成功率で大きな問題を解決する。
また,実際の移動ロボットの森林マッピングシナリオにおいて,アルゴリズムの性能を検証する。
- 参考スコア(独自算出の注目度): 18.518047404768378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deterministic partially observable Markov decision processes (DetPOMDPs) often arise in planning problems where the agent is uncertain about its environmental state but can act and observe deterministically. In this paper, we propose DetMCVI, an adaptation of the Monte Carlo Value Iteration (MCVI) algorithm for DetPOMDPs, which builds policies in the form of finite-state controllers (FSCs). DetMCVI solves large problems with a high success rate, outperforming existing baselines for DetPOMDPs. We also verify the performance of the algorithm in a real-world mobile robot forest mapping scenario.
- Abstract(参考訳): 決定論的部分観測可能なマルコフ決定プロセス(DetPOMDPs)は、エージェントがその環境状態について不確実であるが、決定論的に行動し、観察することができるような計画上の問題にしばしば発生する。
本稿では,DetPOMDPに対するモンテカルロ値イテレーション(MCVI)アルゴリズムの適応であるDetMCVIを提案する。
DetMCVIは、DetPOMDPの既存のベースラインを上回り、高い成功率で大きな問題を解決する。
また,実際の移動ロボットの森林マッピングシナリオにおいて,アルゴリズムの性能を検証する。
関連論文リスト
- Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Optimal Inspection and Maintenance Planning for Deteriorating Structural
Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。
本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。
その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文 参考訳(メタデータ) (2020-09-09T20:03:42Z) - Stochastic Finite State Control of POMDPs with LTL Specifications [14.163899014007647]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下での自律的な意思決定のためのモデリングフレームワークを提供する。
本稿では,POMDPに対する準最適有限状態制御器(sFSC)の合成に関する定量的問題について考察する。
本稿では,sFSC サイズが制御される有界ポリシアルゴリズムと,連続的な繰り返しにより制御器の性能が向上する任意の時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T18:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。