論文の概要: Rule-based Shielding for Partially Observable Monte-Carlo Planning
- arxiv url: http://arxiv.org/abs/2104.13791v1
- Date: Wed, 28 Apr 2021 14:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 15:59:15.143548
- Title: Rule-based Shielding for Partially Observable Monte-Carlo Planning
- Title(参考訳): 部分観測可能なモンテカルロ計画のためのルールベースシールド
- Authors: Giulio Mazzi, Alberto Castellini, Alessandro Farinelli
- Abstract要約: 一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
- 参考スコア(独自算出の注目度): 78.05638156687343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Monte-Carlo Planning (POMCP) is a powerful online
algorithm able to generate approximate policies for large Partially Observable
Markov Decision Processes. The online nature of this method supports
scalability by avoiding complete policy representation. The lack of an explicit
representation however hinders policy interpretability and makes policy
verification very complex. In this work, we propose two contributions. The
first is a method for identifying unexpected actions selected by POMCP with
respect to expert prior knowledge of the task. The second is a shielding
approach that prevents POMCP from selecting unexpected actions. The first
method is based on Satisfiability Modulo Theory (SMT). It inspects traces
(i.e., sequences of belief-action-observation triplets) generated by POMCP to
compute the parameters of logical formulas about policy properties defined by
the expert. The second contribution is a module that uses online the logical
formulas to identify anomalous actions selected by POMCP and substitutes those
actions with actions that satisfy the logical formulas fulfilling expert
knowledge. We evaluate our approach on Tiger, a standard benchmark for POMDPs,
and a real-world problem related to velocity regulation in mobile robot
navigation. Results show that the shielded POMCP outperforms the standard POMCP
in a case study in which a wrong parameter of POMCP makes it select wrong
actions from time to time. Moreover, we show that the approach keeps good
performance also if the parameters of the logical formula are optimized using
trajectories containing some wrong actions.
- Abstract(参考訳): 部分的に観測可能なモンテカルロ計画 (POMCP) は、大規模な部分観測可能なマルコフ決定プロセスのための近似ポリシーを生成することができる強力なオンラインアルゴリズムである。
この手法のオンライン性は、完全なポリシー表現を避けてスケーラビリティをサポートする。
しかし、明示的な表現の欠如は政策解釈を妨げ、政策検証を非常に複雑にする。
本研究では,2つの貢献を提案する。
1つ目は、タスクの専門的な事前知識に関して、POMCPが選択した予期せぬ動作を特定する方法である。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
最初の方法はSatifiability Modulo Theory (SMT) に基づいている。
POMCPが生成したトレース(すなわち、信念-行動-観測三重項の列)を検査し、専門家が定義したポリシー特性に関する論理公式のパラメータを計算する。
第2の貢献は、オンラインの論理式を使ってpomcpによって選択された異常なアクションを特定し、それらのアクションを専門家の知識を満たす論理式を満たすアクションに置き換えるモジュールである。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションにおける速度制御に関する現実の問題を評価する。
その結果, シールドされたPOMCPが標準のPOMCPよりも優れており, 間違ったパラメータのPOMCPが間違った動作を時折選択するケーススタディが得られた。
さらに,論理式パラメータが不適切な動作を含む軌跡を用いて最適化された場合にも,その手法が良好な性能を維持することを示す。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
論文 参考訳(メタデータ) (2023-10-03T18:24:47Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。