論文の概要: Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems
- arxiv url: http://arxiv.org/abs/2404.15199v1
- Date: Tue, 23 Apr 2024 16:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 12:53:16.047474
- Title: Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems
- Title(参考訳): 臨界系の安全制御のための適応制御規則化による強化学習
- Authors: Haozhe Tian, Homayoun Hamedmoghadam, Robert Shorten, Pietro Ferraro,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な手法であるが、その学習メカニズムは予測不可能な行動を引き起こす可能性がある。
本稿では、RLポリシーと制御正則化器を組み合わせることにより、RLの安全性を確保する適応制御正則化(RL-ACR)を提案する。
RL-ACRの医療管理における有効性を示す。
- 参考スコア(独自算出の注目度): 2.126171264016785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is a powerful method for controlling dynamic systems, but its learning mechanism can lead to unpredictable actions that undermine the safety of critical systems. Here, we propose RL with Adaptive Control Regularization (RL-ACR) that ensures RL safety by combining the RL policy with a control regularizer that hard-codes safety constraints over forecasted system behaviors. The adaptability is achieved by using a learnable "focus" weight trained to maximize the cumulative reward of the policy combination. As the RL policy improves through off-policy learning, the focus weight improves the initial sub-optimum strategy by gradually relying more on the RL policy. We demonstrate the effectiveness of RL-ACR in a critical medical control application and further investigate its performance in four classic control environments.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な方法であるが、その学習メカニズムは、クリティカルシステムの安全性を損なう予測不可能な行動を引き起こす可能性がある。
本稿では、RLポリシーと、予測されたシステム動作に対する安全性制約をハードコードする制御正則化器を組み合わせることにより、RLの安全性を保証する適応制御規則化(RL-ACR)を用いたRLを提案する。
適応性は、政策の組み合わせの累積報酬を最大化するために訓練された学習可能な「焦点」重みを使用することによって達成される。
RL政策は、政治外の学習を通じて改善されるので、焦点重みは、RL政策に徐々に依存することで、初期最適化戦略を改善する。
RL-ACRの医療制御への応用を実証し、4つの古典的制御環境におけるその性能について検討する。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Improving Robustness of Reinforcement Learning for Power System Control
with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。
具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。
本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:50:34Z) - Symmetry reduction for deep reinforcement learning active control of
chaotic spatiotemporal dynamics [0.0]
深層強化学習(RL)は、高次元システムにおけるマクロな目的のための複雑な制御戦略を発見することができる。
本研究では,深部RL問題を対称還元空間へ移動させることにより,深部RLのナイーブ応用に内在する制約を緩和できることを示した。
我々は, 対称性を低減した深部RLは, ナイーブ深部RLよりもデータ効率が向上し, 制御ポリシの有効性が向上することを示した。
論文 参考訳(メタデータ) (2021-04-09T17:55:12Z) - Safe Reinforcement Learning Using Robust Action Governor [6.833157102376731]
Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。
本論文では, RLアルゴリズムとアドオン安全監視モジュールの統合に基づく安全RLの枠組みについて紹介する。
自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。
論文 参考訳(メタデータ) (2021-02-21T16:50:17Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - MRAC-RL: A Framework for On-Line Policy Adaptation Under Parametric
Model Uncertainty [0.34265828682659694]
強化学習アルゴリズムは動的システムの制御ポリシーの開発に成功している。
本稿では,線形および非線形の幅広いシステムに適用可能な新しいMRACアルゴリズムを提案する。
MRAC-RLアプローチは制御ポリシの開発において最先端のRLアルゴリズムを改善することを実証する。
論文 参考訳(メタデータ) (2020-11-20T18:55:53Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。