論文の概要: Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate
- arxiv url: http://arxiv.org/abs/2210.07553v1
- Date: Fri, 14 Oct 2022 06:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:21:58.153628
- Title: Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate
- Title(参考訳): 不確実性を考慮した信頼度証明を用いた安全モデルに基づく強化学習
- Authors: Dongjie Yu, Wenjun Zou, Yujie Yang, Haitong Ma, Shengbo Eben Li,
Jingliang Duan and Jianyu Chen
- Abstract要約: 我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
- 参考スコア(独自算出の注目度): 6.581362609037603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) that solves constraint-satisfactory policies
provides a promising way to the broader safety-critical applications of RL in
real-world problems such as robotics. Among all safe RL approaches, model-based
methods reduce training time violations further due to their high sample
efficiency. However, lacking safety robustness against the model uncertainties
remains an issue in safe model-based RL, especially in training time safety. In
this paper, we propose a distributional reachability certificate (DRC) and its
Bellman equation to address model uncertainties and characterize robust
persistently safe states. Furthermore, we build a safe RL framework to resolve
constraints required by the DRC and its corresponding shield policy. We also
devise a line search method to maintain safety and reach higher returns
simultaneously while leveraging the shield policy. Comprehensive experiments on
classical benchmarks such as constrained tracking and navigation indicate that
the proposed algorithm achieves comparable returns with much fewer constraint
violations during training.
- Abstract(参考訳): 制約満足度ポリシーを解決する安全強化学習(RL)は、ロボット工学のような現実世界の課題において、RLのより広範な安全クリティカルな応用に有望な手段を提供する。
すべての安全なRL手法の中で、モデルに基づく手法は、高いサンプル効率のためにトレーニング時間違反をさらに軽減する。
しかしながら、モデルの不確実性に対する安全性の欠如は、安全なモデルベースのRL、特に訓練時間の安全性において問題となっている。
本稿では, モデルの不確実性に対処し, 頑健な安全状態を特徴付けるための分布到達性証明(DRC)とそのベルマン方程式を提案する。
さらに, DRCとそれに対応するシールドポリシーの制約を解決するために, 安全なRLフレームワークを構築した。
また,保護ポリシーを活用しつつ,安全性を保ち,高いリターンを同時に達成するためのライン探索手法を考案する。
制約付きトラッキングやナビゲーションのような古典的ベンチマークに関する総合的な実験は、提案アルゴリズムがトレーニング中に制約違反をはるかに少なく、同等のリターンを達成することを示している。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。