Fugu-MT 論文翻訳(概要): Physical Deep Reinforcement Learning Towards Safety Guarantee

論文の概要: Physical Deep Reinforcement Learning Towards Safety Guarantee

arxiv url: http://arxiv.org/abs/2303.16860v1
Date: Wed, 29 Mar 2023 17:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 13:56:17.241321
Title: Physical Deep Reinforcement Learning Towards Safety Guarantee
Title（参考訳）: 安全保証に向けた物理的深層強化学習
Authors: Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo
Abstract要約: Phy-DRLは物理的な強化学習フレームワークである。物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。 Phy-DRLは安全性と安定性が保証され,堅牢性が向上し,トレーニングが著しく向上し,報酬が増大した。
参考スコア（独自算出の注目度）: 2.4436713014295157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning (DRL) has achieved tremendous success in many complex decision-making tasks of autonomous systems with high-dimensional state and/or action spaces. However, the safety and stability still remain major concerns that hinder the applications of DRL to safety-critical autonomous systems. To address the concerns, we proposed the Phy-DRL: a physical deep reinforcement learning framework. The Phy-DRL is novel in two architectural designs: i) Lyapunov-like reward, and ii) residual control (i.e., integration of physics-model-based control and data-driven control). The concurrent physical reward and residual control empower the Phy-DRL the (mathematically) provable safety and stability guarantees. Through experiments on the inverted pendulum, we show that the Phy-DRL features guaranteed safety and stability and enhanced robustness, while offering remarkably accelerated training and enlarged reward.
Abstract（参考訳）: 深部強化学習(DRL)は、高次元状態および/または行動空間を持つ自律システムの多くの複雑な意思決定タスクにおいて大きな成功を収めた。しかし、安全と安定性は依然としてDRLの安全クリティカルな自律システムへの適用を妨げる主要な関心事である。そこで我々はPhy-DRL(物理深部強化学習フレームワーク)を提案した。 Phy-DRLは2つのアーキテクチャ設計で新しい。一リャプノフ様の報酬及び二残留制御(物理モデルに基づく制御とデータ駆動制御の統合) 物理報酬と残留制御は、(数学的に)証明可能な安全性と安定性の保証をPhy-DRLに付与する。逆振り子を用いた実験により,Phy-DRLは安全性と安定性が保証され,頑健性が向上し,トレーニングが著しく加速し,報酬が増大した。

関連論文リスト

Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文参考訳（メタデータ） (2025-06-12T16:34:19Z)
Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文参考訳（メタデータ） (2025-06-03T11:17:07Z)
SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning [2.7075926292355286]
本研究では,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。事前訓練されたエンコーダデコーダと状態依存線形システムを用いることで,安定性解析と解釈可能性の両方を実現する。
論文参考訳（メタデータ） (2025-02-21T15:09:39Z)
Safety Filtering While Training: Improving the Performance and Sample Efficiency of Reinforcement Learning Agents [7.55113002732746]
強化学習(RL)コントローラは柔軟で性能が高いが、安全性を保証することは滅多にない。安全フィルタは、柔軟性を維持しながら、RLコントローラにハードセーフの保証を与える。我々は、評価中にのみ適用するのではなく、トレーニング用RLコントローラに安全フィルタを組み込むためのいくつかの変更を分析した。
論文参考訳（メタデータ） (2024-10-15T15:01:57Z)
ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文参考訳（メタデータ） (2024-10-12T10:46:02Z)
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文参考訳（メタデータ） (2024-05-29T18:00:21Z)
Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文参考訳（メタデータ） (2024-03-06T19:39:20Z)
Physics-Regulated Deep Reinforcement Learning: Invariant Embeddings [2.2338458480599637]
Phy-DRLは物理制御された安全クリティカルな自律システムのための深層強化学習フレームワークである。 The Phy-DRL exhibits 1) a mathematicallyprovable safety guarantee and 2) strict compliance of critic and actor network with physics knowledge with the action-value function and action policy。
論文参考訳（メタデータ） (2023-05-26T04:20:02Z)
Control invariant set enhanced safe reinforcement learning: improved sampling efficiency, guaranteed stability and robustness [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。提案手法のロバスト性は不確実性の存在下で検討される。その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証が得られた。
論文参考訳（メタデータ） (2023-05-24T22:22:19Z)
Stable and Safe Reinforcement Learning via a Barrier-Lyapunov Actor-Critic Approach [1.8924647429604111]
Barrier-Lyapunov Actor-Critic(BLAC)フレームワークは、前述のシステムの安全性と安定性の維持を支援する。 RLベースのコントローラが有効な制御信号を提供できない場合、追加のバックアップコントローラが導入される。
論文参考訳（メタデータ） (2023-04-08T16:48:49Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文参考訳（メタデータ） (2022-07-04T11:43:23Z)
KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文参考訳（メタデータ） (2022-06-03T17:27:04Z)
Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文参考訳（メタデータ） (2021-10-18T00:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。