論文の概要: Safe POMDP Online Planning via Shielding
- arxiv url: http://arxiv.org/abs/2309.10216v1
- Date: Tue, 19 Sep 2023 00:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:54:33.616606
- Title: Safe POMDP Online Planning via Shielding
- Title(参考訳): シールドによる安全なPOMDPオンラインプランニング
- Authors: Shili Sheng, David Parker and Lu Feng
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定のために多くのロボットアプリケーションで広く利用されている。
部分的に観測可能なモンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待されるリターンを最大化することを目的として、非常に大きなPOMDPを解決することができる。
しかし、結果として生じるポリシーは、現実世界の安全に不可欠なタスクに必須の安全保証を提供することはできない。
- 参考スコア(独自算出の注目度): 6.234405592444883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially observable Markov decision processes (POMDPs) have been widely used
in many robotic applications for sequential decision-making under uncertainty.
POMDP online planning algorithms such as Partially Observable Monte-Carlo
Planning (POMCP) can solve very large POMDPs with the goal of maximizing the
expected return. But the resulting policies cannot provide safety guarantees
that are imperative for real-world safety-critical tasks (e.g., autonomous
driving). In this work, we consider safety requirements represented as
almost-sure reach-avoid specifications (i.e., the probability to reach a set of
goal states is one and the probability to reach a set of unsafe states is
zero). We compute shields that restrict unsafe actions violating almost-sure
reach-avoid specifications. We then integrate these shields into the POMCP
algorithm for safe POMDP online planning. We propose four distinct shielding
methods, differing in how the shields are computed and integrated, including
factored variants designed to improve scalability. Experimental results on a
set of benchmark domains demonstrate that the proposed shielding methods
successfully guarantee safety (unlike the baseline POMCP without shielding) on
large POMDPs, with negligible impact on the runtime for online planning.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定のために多くのロボットアプリケーションで広く利用されている。
部分的に観測可能なモンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待されるリターンを最大化することを目的として、非常に大きなPOMDPを解決することができる。
しかし、結果として生じる政策は、現実世界の安全クリティカルなタスク(例えば自動運転)に欠かせない安全保証を提供することはできない。
本研究では,安全要件をほぼ確実な到達回避仕様として考える(すなわち,目標状態のセットに到達する確率は1であり,安全でない状態のセットに到達する確率は0である)。
ほぼ確実に到達可能な仕様に違反する安全でない動作を制限するシールドを計算します。
そして、これらのシールドをPOMCPアルゴリズムに統合し、安全なPOMDPオンラインプランニングを行う。
我々は,拡張性を改善するために設計されたファクタ付き変種を含む,シールドの計算と統合方法が異なる4つの異なる遮蔽方法を提案する。
一連のベンチマーク領域の実験結果から,提案手法は大規模なPOMDP上での安全(シールドなしのベースラインPOMCPとは異なり)の確保に成功し,オンラインプランニングのランタイムへの影響は無視できることがわかった。
関連論文リスト
- ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。