論文の概要: Verification-Guided Shielding for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.06507v2
- Date: Thu, 20 Jun 2024 23:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:57:27.960902
- Title: Verification-Guided Shielding for Deep Reinforcement Learning
- Title(参考訳): 深部強化学習のための検証誘導シールド
- Authors: Davide Corsi, Guy Amir, Andoni Rodriguez, Cesar Sanchez, Guy Katz, Roy Fox,
- Abstract要約: Deep Reinforcement Learning (DRL)は、現実世界の課題を解決するための効果的なアプローチとして登場した。
正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。
これら2つの手法を統合することでDRLの信頼性ギャップを橋渡しする新しい手法である検証誘導遮蔽法を提案する。
- 参考スコア(独自算出の注目度): 4.418183967223081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Deep Reinforcement Learning (DRL) has emerged as an effective approach to solving real-world tasks. However, despite their successes, DRL-based policies suffer from poor reliability, which limits their deployment in safety-critical domains. Various methods have been put forth to address this issue by providing formal safety guarantees. Two main approaches include shielding and verification. While shielding ensures the safe behavior of the policy by employing an external online component (i.e., a ``shield'') that overrides potentially dangerous actions, this approach has a significant computational cost as the shield must be invoked at runtime to validate every decision. On the other hand, verification is an offline process that can identify policies that are unsafe, prior to their deployment, yet, without providing alternative actions when such a policy is deemed unsafe. In this work, we present verification-guided shielding -- a novel approach that bridges the DRL reliability gap by integrating these two methods. Our approach combines both formal and probabilistic verification tools to partition the input domain into safe and unsafe regions. In addition, we employ clustering and symbolic representation procedures that compress the unsafe regions into a compact representation. This, in turn, allows to temporarily activate the shield solely in (potentially) unsafe regions, in an efficient manner. Our novel approach allows to significantly reduce runtime overhead while still preserving formal safety guarantees. We extensively evaluate our approach on two benchmarks from the robotic navigation domain, as well as provide an in-depth analysis of its scalability and completeness.
- Abstract(参考訳): 近年,現実世界の課題を解決するための効果的なアプローチとして,深層強化学習(DRL)が登場している。
しかし、DRLベースのポリシーは、成功にもかかわらず、信頼性の低さに悩まされ、安全クリティカルなドメインへのデプロイメントが制限される。
正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。
2つの主要なアプローチは、遮蔽と検証である。
シールドは、潜在的に危険なアクションをオーバーライドする外部のオンラインコンポーネント(すなわち `shield'')を使用することによって、ポリシーの安全な行動を保証するが、このアプローチは、すべての決定を検証するためにシールドを実行時に呼び出す必要があるため、かなりの計算コストがかかる。
一方、検証はオフラインプロセスであり、デプロイ前に安全でないポリシーを識別できるが、そのようなポリシーが安全でないと判断された場合、代替のアクションを提供することはない。
本研究では,この2つの手法を統合することでDRLの信頼性ギャップを橋渡しする,検証誘導遮蔽法を提案する。
提案手法は,入力領域を安全領域と安全領域に分割する形式的および確率的検証ツールを組み合わせたものである。
さらに、安全でない領域をコンパクトな表現に圧縮するクラスタリングおよびシンボル表現手法を用いる。
これにより、(潜在的に)安全でない地域でのみ、効率的な方法でシールドを一時的に活性化することができる。
私たちの新しいアプローチは、正式な安全保証を維持しながら、実行時のオーバーヘッドを大幅に削減します。
ロボットナビゲーション領域からの2つのベンチマークに対する我々のアプローチを広く評価するとともに、そのスケーラビリティと完全性について詳細な分析を行った。
関連論文リスト
- Realizable Continuous-Space Shields for Safe Reinforcement Learning [13.728961635717134]
深層強化学習(Dep Reinforcement Learning, DRL)は、時には破滅的な障害に対して、追加の保護なしに脆弱なままである。
効果的な解決策の1つは、エージェントのアクションを検証・調整するシールドを使用して、与えられた一連の安全仕様に準拠することである。
本研究では,連続状態および行動空間における安全要件の実現可能性を自動的に保証する最初の遮蔽手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T21:08:11Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。