論文の概要: Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments
- arxiv url: http://arxiv.org/abs/2402.00816v1
- Date: Thu, 1 Feb 2024 17:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 13:57:58.011799
- Title: Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments
- Title(参考訳): 連続環境における確率論的安全保証のための近似モデルベースシールドの活用
- Authors: Alexander W. Goodall, Francesco Belardinelli
- Abstract要約: 近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
- 参考スコア(独自算出の注目度): 63.053364805943026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shielding is a popular technique for achieving safe reinforcement learning
(RL). However, classical shielding approaches come with quite restrictive
assumptions making them difficult to deploy in complex environments,
particularly those with continuous state or action spaces. In this paper we
extend the more versatile approximate model-based shielding (AMBS) framework to
the continuous setting. In particular we use Safety Gym as our test-bed,
allowing for a more direct comparison of AMBS with popular constrained RL
algorithms. We also provide strong probabilistic safety guarantees for the
continuous setting. In addition, we propose two novel penalty techniques that
directly modify the policy gradient, which empirically provide more stable
convergence in our experiments.
- Abstract(参考訳): シールドは安全な強化学習(RL)を実現するための一般的な技術である。
しかしながら、古典的な遮蔽アプローチでは、複雑な環境、特に連続状態やアクション空間でのデプロイを非常に制限的な仮定で困難にしている。
本稿では,より汎用性の高い近似モデルベースシールド(AMBS)フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
また、持続的な設定に対する強力な確率的安全性保証も提供します。
さらに, 実験において, より安定な収束を実現するために, ポリシー勾配を直接修正する2つの新しいペナルティ手法を提案する。
関連論文リスト
- Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Guiding Safe Exploration with Weakest Preconditions [15.469452301122177]
安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。
我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-28T14:58:41Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文 参考訳(メタデータ) (2021-04-16T15:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。