論文の概要: Constrained Hierarchical Monte Carlo Belief-State Planning
- arxiv url: http://arxiv.org/abs/2310.20054v1
- Date: Mon, 30 Oct 2023 22:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:27:15.739349
- Title: Constrained Hierarchical Monte Carlo Belief-State Planning
- Title(参考訳): 制約付き階層型モンテカルロ信念状態計画
- Authors: Arec Jamgochian, Hugo Buurmeijer, Kyle H. Wray, Anthony Corso, Mykel
J. Kochenderfer
- Abstract要約: オンライン検索ベースのCPOMDPプランニングを大規模ロボット問題に拡張するために,Constrained Options Belief Tree Search (COBeTS)を導入した。
プリミティブオプションコントローラが割り当てられた制約予算を満たすように定義された場合、COBeTSはいつでも制約を満たす。
我々はCOBeTSをいくつかの安全クリティカルで制約のある部分的に観測可能なロボットドメインで実証する。
- 参考スコア(独自算出の注目度): 35.606121916832144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal plans in Constrained Partially Observable Markov Decision Processes
(CPOMDPs) maximize reward objectives while satisfying hard cost constraints,
generalizing safe planning under state and transition uncertainty.
Unfortunately, online CPOMDP planning is extremely difficult in large or
continuous problem domains. In many large robotic domains, hierarchical
decomposition can simplify planning by using tools for low-level control given
high-level action primitives (options). We introduce Constrained Options Belief
Tree Search (COBeTS) to leverage this hierarchy and scale online search-based
CPOMDP planning to large robotic problems. We show that if primitive option
controllers are defined to satisfy assigned constraint budgets, then COBeTS
will satisfy constraints anytime. Otherwise, COBeTS will guide the search
towards a safe sequence of option primitives, and hierarchical monitoring can
be used to achieve runtime safety. We demonstrate COBeTS in several
safety-critical, constrained partially observable robotic domains, showing that
it can plan successfully in continuous CPOMDPs while non-hierarchical baselines
cannot.
- Abstract(参考訳): 制約付き部分観測可能なマルコフ決定プロセス(CPOMDPs)の最適計画は、コスト制約を満たしつつ報酬目標を最大化し、状態と遷移の不確実性の下で安全な計画を一般化する。
残念ながら、大規模または連続的な問題領域ではオンラインCPOMDP計画は非常に難しい。
多くの大きなロボットドメインでは、階層的な分解は、高レベルのアクションプリミティブ(オプション)を与えられた低レベル制御のためのツールを使用することで、計画を簡単にすることができる。
我々は、この階層を活用し、オンライン検索ベースのCPOMDPプランニングを大規模ロボット問題に拡張するために、制約付きオプション選択木探索(COBeTS)を導入する。
プリミティブオプションコントローラが割り当てられた制約予算を満たすように定義された場合、COBeTSはいつでも制約を満たす。
さもなくば、cobetsはオプションプリミティブの安全なシーケンスへの検索をガイドし、階層的監視はランタイムの安全性を達成するために使用できる。
我々はCOBeTSをいくつかの安全クリティカルで制約のある部分的に観測可能なロボットドメインで実証し、非階層的ベースラインでは不可能な連続CPOMDPで計画できることを示した。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Safe POMDP Online Planning via Shielding [6.234405592444883]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定のために多くのロボットアプリケーションで広く利用されている。
部分的に観測可能なモンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待されるリターンを最大化することを目的として、非常に大きなPOMDPを解決することができる。
しかし、結果として生じる政策は、現実世界の安全に不可欠なタスクに欠かせない安全保証を提供することはできない。
論文 参考訳(メタデータ) (2023-09-19T00:02:05Z) - Lifted Sequential Planning with Lazy Constraint Generation Solvers [28.405198103927955]
本稿では,Lzy Clause Generation(LCG)に基づく制約プログラミング(CP)へのアプローチを用いて,オープンな可能性について検討する。
本稿では,いわゆるリフト型因果エンコーディングに基づく新しいCPモデルを提案する。
提案手法は,計画手順の少ない計画インスタンスに対して,最適な逐次計画における最先端の手法と非常によく比較可能であることを報告する。
論文 参考訳(メタデータ) (2023-07-17T04:54:58Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。