論文の概要: Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems
- arxiv url: http://arxiv.org/abs/2404.15199v2
- Date: Thu, 23 May 2024 05:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:30:39.947715
- Title: Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems
- Title(参考訳): 臨界系の安全制御のための適応制御規則化による強化学習
- Authors: Haozhe Tian, Homayoun Hamedmoghadam, Robert Shorten, Pietro Ferraro,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な方法であるが、その学習メカニズムは、クリティカルシステムの安全性を損なう予測不可能な行動を引き起こす可能性がある。
本稿では、RLポリシーと安全制約をハードコードするポリシー正規化器を組み合わせることで、安全なRL探索を可能にするアルゴリズムであるAdaptive Control Regularization (RL-ACR)を提案する。
本稿では,RL-ACRが安全性を無視したモデルフリーなRL手法の性能基準を達成しつつ,トレーニング中の安全性を確保することを実証する。
- 参考スコア(独自算出の注目度): 2.126171264016785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is a powerful method for controlling dynamic systems, but its learning mechanism can lead to unpredictable actions that undermine the safety of critical systems. Here, we propose RL with Adaptive Control Regularization (RL-ACR), an algorithm that enables safe RL exploration by combining the RL policy with a policy regularizer that hard-codes safety constraints. We perform policy combination via a "focus network," which determines the appropriate combination depending on the state -- relying more on the safe policy regularizer for less-exploited states while allowing unbiased convergence for well-exploited states. In a series of critical control applications, we demonstrate that RL-ACR ensures safety during training while achieving the performance standards of model-free RL approaches that disregard safety.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な方法であるが、その学習メカニズムは、クリティカルシステムの安全性を損なう予測不可能な行動を引き起こす可能性がある。
本稿では、RLポリシーと安全制約をハードコードするポリシー正規化器を組み合わせることにより、安全なRL探索を可能にするアルゴリズムであるRL with Adaptive Control Regularization (RL-ACR)を提案する。
我々は「フォーカス・ネットワーク」を通じて政策の組み合わせを行い、これは国家によって適切な組み合わせを決定するもので、未開の州では安全な政策レギュレータに依存しつつ、未開の州では不偏の収束を許容している。
本稿では,RL-ACRが安全性を無視したモデルフリーなRL手法の性能基準を達成しつつ,トレーニング中の安全性を確保することを実証する。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Safe Reinforcement Learning Using Robust Action Governor [6.833157102376731]
Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。
本論文では, RLアルゴリズムとアドオン安全監視モジュールの統合に基づく安全RLの枠組みについて紹介する。
自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。
論文 参考訳(メタデータ) (2021-02-21T16:50:17Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。