論文の概要: Physical Deep Reinforcement Learning Towards Safety Guarantee
- arxiv url: http://arxiv.org/abs/2303.16860v1
- Date: Wed, 29 Mar 2023 17:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:56:17.241321
- Title: Physical Deep Reinforcement Learning Towards Safety Guarantee
- Title(参考訳): 安全保証に向けた物理的深層強化学習
- Authors: Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo
- Abstract要約: Phy-DRLは物理的な強化学習フレームワークである。
物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。
Phy-DRLは安全性と安定性が保証され,堅牢性が向上し,トレーニングが著しく向上し,報酬が増大した。
- 参考スコア(独自算出の注目度): 2.4436713014295157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has achieved tremendous success in many
complex decision-making tasks of autonomous systems with high-dimensional state
and/or action spaces. However, the safety and stability still remain major
concerns that hinder the applications of DRL to safety-critical autonomous
systems. To address the concerns, we proposed the Phy-DRL: a physical deep
reinforcement learning framework. The Phy-DRL is novel in two architectural
designs: i) Lyapunov-like reward, and ii) residual control (i.e., integration
of physics-model-based control and data-driven control). The concurrent
physical reward and residual control empower the Phy-DRL the (mathematically)
provable safety and stability guarantees. Through experiments on the inverted
pendulum, we show that the Phy-DRL features guaranteed safety and stability and
enhanced robustness, while offering remarkably accelerated training and
enlarged reward.
- Abstract(参考訳): 深部強化学習(DRL)は、高次元状態および/または行動空間を持つ自律システムの多くの複雑な意思決定タスクにおいて大きな成功を収めた。
しかし、安全と安定性は依然としてDRLの安全クリティカルな自律システムへの適用を妨げる主要な関心事である。
そこで我々はPhy-DRL(物理深部強化学習フレームワーク)を提案した。
Phy-DRLは2つのアーキテクチャ設計で新しい。
一 リャプノフ様の報酬及び
二 残留制御(物理モデルに基づく制御とデータ駆動制御の統合)
物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。
逆振り子を用いた実験により,Phy-DRLは安全性と安定性が保証され,頑健性が向上し,トレーニングが著しく加速し,報酬が増大した。
関連論文リスト
- Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents [7.55113002732746]
強化学習(RL)コントローラは柔軟で性能が高いが、安全性を保証することは滅多にない。
安全フィルタは、柔軟性を維持しながら、RLコントローラにハードセーフの保証を与える。
我々は、評価中にのみ適用するのではなく、トレーニング用RLコントローラに安全フィルタを組み込むためのいくつかの変更を分析した。
論文 参考訳(メタデータ) (2024-10-15T15:01:57Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Physics-Regulated Deep Reinforcement Learning: Invariant Embeddings [2.2338458480599637]
Phy-DRLは物理制御された安全クリティカルな自律システムのための深層強化学習フレームワークである。
The Phy-DRL exhibits 1) a mathematicallyprovable safety guarantee and 2) strict compliance of critic and actor network with physics knowledge with the action-value function and action policy。
論文 参考訳(メタデータ) (2023-05-26T04:20:02Z) - Control invariant set enhanced safe reinforcement learning: improved
sampling efficiency, guaranteed stability and robustness [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
提案手法のロバスト性は不確実性の存在下で検討される。
その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証が得られた。
論文 参考訳(メタデータ) (2023-05-24T22:22:19Z) - Stable and Safe Reinforcement Learning via a Barrier-Lyapunov
Actor-Critic Approach [1.8924647429604111]
Barrier-Lyapunov Actor-Critic(BLAC)フレームワークは、前述のシステムの安全性と安定性の維持を支援する。
RLベースのコントローラが有効な制御信号を提供できない場合、追加のバックアップコントローラが導入される。
論文 参考訳(メタデータ) (2023-04-08T16:48:49Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。