論文の概要: Control invariant set enhanced safe reinforcement learning: improved
sampling efficiency, guaranteed stability and robustness
- arxiv url: http://arxiv.org/abs/2305.15602v1
- Date: Wed, 24 May 2023 22:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:23:10.516567
- Title: Control invariant set enhanced safe reinforcement learning: improved
sampling efficiency, guaranteed stability and robustness
- Title(参考訳): control invariant set enhanced safe reinforcement learning: サンプリング効率の向上、安定性の保証、ロバスト性
- Authors: Song Bo, Bernard T. Agyeman, Xunyuan Yin, Jinfeng Liu (University of
Alberta)
- Abstract要約: この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
提案手法のロバスト性は不確実性の存在下で検討される。
その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is an area of significant research interest, and
safe RL in particular is attracting attention due to its ability to handle
safety-driven constraints that are crucial for real-world applications. This
work proposes a novel approach to RL training, called control invariant set
(CIS) enhanced RL, which leverages the advantages of utilizing the explicit
form of CIS to improve stability guarantees and sampling efficiency.
Furthermore, the robustness of the proposed approach is investigated in the
presence of uncertainty. The approach consists of two learning stages: offline
and online. In the offline stage, CIS is incorporated into the reward design,
initial state sampling, and state reset procedures. This incorporation of CIS
facilitates improved sampling efficiency during the offline training process.
In the online stage, RL is retrained whenever the predicted next step state is
outside of the CIS, which serves as a stability criterion, by introducing a
Safety Supervisor to examine the safety of the action and make necessary
corrections. The stability analysis is conducted for both cases, with and
without uncertainty. To evaluate the proposed approach, we apply it to a
simulated chemical reactor. The results show a significant improvement in
sampling efficiency during offline training and closed-loop stability guarantee
in the online implementation, with and without uncertainty.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は重要な研究分野であり、特に安全なRLは、現実世界のアプリケーションにとって重要な安全駆動制約を扱う能力から注目されている。
本研究は、制御不変集合(CIS)拡張RLと呼ばれるRLトレーニングに対する新しいアプローチを提案し、CISの明示的な形式を利用して安定性の保証とサンプリング効率を改善するという利点を活用する。
さらに,不確実性の存在下で,提案手法の堅牢性について検討した。
このアプローチは、オフラインとオンラインの2つの学習段階で構成される。
オフラインの段階では、CISは報酬設計、初期状態サンプリング、状態リセット手順に組み込まれる。
このCISの導入は、オフライントレーニングプロセスにおけるサンプリング効率の向上を促進する。
オンライン段階では、安全監督装置を導入して行動の安全性を確認し、必要な修正を行うことにより、予測された次のステップ状態が安定性基準として機能するCISの外にある場合、RLを再訓練する。
両症例とも不確実性の有無にかかわらず安定性解析を行う。
提案手法を評価するため,シミュレーション化学反応器に適用する。
その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証,不確実性の有無に関わらず実現した。
関連論文リスト
- Control invariant set enhanced reinforcement learning for process
control: improved sampling efficiency and guaranteed stability [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
このアプローチは、オフラインとオンラインの2つの学習段階で構成されている。
その結果,オフライントレーニングにおけるサンプリング効率が向上し,オンライン実装におけるクローズドループ安定性が向上した。
論文 参考訳(メタデータ) (2023-04-11T21:27:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。