Fugu-MT 論文翻訳(概要): Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems

論文の概要: Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems

arxiv url: http://arxiv.org/abs/2404.15199v1
Date: Tue, 23 Apr 2024 16:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 12:53:16.047474
Title: Reinforcement Learning with Adaptive Control Regularization for Safe Control of Critical Systems
Title（参考訳）: 臨界系の安全制御のための適応制御規則化による強化学習
Authors: Haozhe Tian, Homayoun Hamedmoghadam, Robert Shorten, Pietro Ferraro,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な手法であるが、その学習メカニズムは予測不可能な行動を引き起こす可能性がある。本稿では、RLポリシーと制御正則化器を組み合わせることにより、RLの安全性を確保する適応制御正則化(RL-ACR)を提案する。 RL-ACRの医療管理における有効性を示す。
参考スコア（独自算出の注目度）: 2.126171264016785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) is a powerful method for controlling dynamic systems, but its learning mechanism can lead to unpredictable actions that undermine the safety of critical systems. Here, we propose RL with Adaptive Control Regularization (RL-ACR) that ensures RL safety by combining the RL policy with a control regularizer that hard-codes safety constraints over forecasted system behaviors. The adaptability is achieved by using a learnable "focus" weight trained to maximize the cumulative reward of the policy combination. As the RL policy improves through off-policy learning, the focus weight improves the initial sub-optimum strategy by gradually relying more on the RL policy. We demonstrate the effectiveness of RL-ACR in a critical medical control application and further investigate its performance in four classic control environments.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、動的システムを制御する強力な方法であるが、その学習メカニズムは、クリティカルシステムの安全性を損なう予測不可能な行動を引き起こす可能性がある。本稿では、RLポリシーと、予測されたシステム動作に対する安全性制約をハードコードする制御正則化器を組み合わせることにより、RLの安全性を保証する適応制御規則化(RL-ACR)を用いたRLを提案する。適応性は、政策の組み合わせの累積報酬を最大化するために訓練された学習可能な「焦点」重みを使用することによって達成される。 RL政策は、政治外の学習を通じて改善されるので、焦点重みは、RL政策に徐々に依存することで、初期最適化戦略を改善する。 RL-ACRの医療制御への応用を実証し、4つの古典的制御環境におけるその性能について検討する。

関連論文リスト

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
On the Design of Safe Continual RL Methods for Control of Nonlinear Systems [2.4920094574814864]
強化学習アルゴリズムは、無人航空機やロボット工学に関連するタスクの制御に成功している。近年,閉ループにおけるRLアルゴリズムの安全な実行を可能にするために,安全なRLが提案されている。システムの安全性に対する継続的な適応は、未検討の問題である。
論文参考訳（メタデータ） (2025-02-21T20:34:40Z)
Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文参考訳（メタデータ） (2024-03-06T19:39:20Z)
Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-27T15:19:45Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Safe Model-Based Reinforcement Learning with an Uncertainty-Aware Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文参考訳（メタデータ） (2022-10-14T06:16:53Z)
Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文参考訳（メタデータ） (2022-07-04T11:43:23Z)
Safe Reinforcement Learning Using Robust Action Governor [6.833157102376731]
Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。本論文では, RLアルゴリズムとアドオン安全監視モジュールの統合に基づく安全RLの枠組みについて紹介する。自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。
論文参考訳（メタデータ） (2021-02-21T16:50:17Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。