論文の概要: Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach
- arxiv url: http://arxiv.org/abs/2012.12732v1
- Date: Wed, 23 Dec 2020 15:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 23:34:25.712515
- Title: Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach
- Title(参考訳): 部分観測可能なモンテカルロ計画における予測外決定の同定-ルールに基づくアプローチ
- Authors: Giulio Mazzi, Alberto Castellini, Alessandro Farinelli
- Abstract要約: 本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
- 参考スコア(独自算出の注目度): 78.05638156687343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Monte-Carlo Planning (POMCP) is a powerful online
algorithm able to generate approximate policies for large Partially Observable
Markov Decision Processes. The online nature of this method supports
scalability by avoiding complete policy representation. The lack of an explicit
representation however hinders interpretability. In this work, we propose a
methodology based on Satisfiability Modulo Theory (SMT) for analyzing POMCP
policies by inspecting their traces, namely sequences of
belief-action-observation triplets generated by the algorithm. The proposed
method explores local properties of policy behavior to identify unexpected
decisions. We propose an iterative process of trace analysis consisting of
three main steps, i) the definition of a question by means of a parametric
logical formula describing (probabilistic) relationships between beliefs and
actions, ii) the generation of an answer by computing the parameters of the
logical formula that maximize the number of satisfied clauses (solving a
MAX-SMT problem), iii) the analysis of the generated logical formula and the
related decision boundaries for identifying unexpected decisions made by POMCP
with respect to the original question. We evaluate our approach on Tiger, a
standard benchmark for POMDPs, and a real-world problem related to mobile robot
navigation. Results show that the approach can exploit human knowledge on the
domain, outperforming state-of-the-art anomaly detection methods in identifying
unexpected decisions. An improvement of the Area Under Curve up to 47\% has
been achieved in our tests.
- Abstract(参考訳): 部分的に観測可能なモンテカルロ計画 (POMCP) は、大規模な部分観測可能なマルコフ決定プロセスのための近似ポリシーを生成することができる強力なオンラインアルゴリズムである。
この手法のオンライン性は、完全なポリシー表現を避けてスケーラビリティをサポートする。
しかし、明示的な表現の欠如は解釈可能性を妨げる。
本研究では,pomcpポリシーを,そのトレース,すなわちアルゴリズムが生成する信念・行動・観察三重項列を検査することにより解析する,満足性モジュラー理論(smt)に基づく手法を提案する。
提案手法は,政策行動の局所的特性を探索し,予期せぬ決定を識別する。
We propose an iterative process of trace analysis consisting of three main steps, i) the definition of a question by means of a parametric logical formula describing (probabilistic) relationships between beliefs and actions, ii) the generation of an answer by computing the parameters of the logical formula that maximize the number of satisfied clauses (solving a MAX-SMT problem), iii) the analysis of the generated logical formula and the related decision boundaries for identifying unexpected decisions made by POMCP with respect to the original question.
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価する。
結果は、この手法がドメイン上の人間の知識を活用でき、予期せぬ決定を識別するための最先端の異常検出方法よりも優れていることを示している。
テストでは,最大47.5%のエリアアンダーカーブの改善が達成された。
関連論文リスト
- Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Point-Based Methods for Model Checking in Partially Observable Markov
Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。
本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。
我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文 参考訳(メタデータ) (2020-01-11T23:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。