論文の概要: Robust Action Governor for Uncertain Piecewise Affine Systems with
Non-convex Constraints and Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.08240v1
- Date: Sun, 17 Jul 2022 17:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 04:30:47.678864
- Title: Robust Action Governor for Uncertain Piecewise Affine Systems with
Non-convex Constraints and Safe Reinforcement Learning
- Title(参考訳): 非凸制約と安全強化学習を併用した不確かさを考慮したアフィン系のロバスト動作制御
- Authors: Yutong Li, Nan Li, H. Eric Tseng, Anouck Girard, Dimitar Filev, Ilya
Kolmanovsky
- Abstract要約: Action Governorは、制御アクションを監視し、調整し、ポイントインタイムの状態と制約として表現された安全仕様を強制する名目制御ループへのアドオンスキームである。
非時間付加的不確実性として表現できるシステムのロバスト行動知事(RAG)を紹介する。
この開発により、環境の安全なリアルタイム進化と、システムパラメータの変化への適応が可能になる。
- 参考スコア(独自算出の注目度): 5.7406123763046955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The action governor is an add-on scheme to a nominal control loop that
monitors and adjusts the control actions to enforce safety specifications
expressed as pointwise-in-time state and control constraints. In this paper, we
introduce the Robust Action Governor (RAG) for systems the dynamics of which
can be represented using discrete-time Piecewise Affine (PWA) models with both
parametric and additive uncertainties and subject to non-convex constraints. We
develop the theoretical properties and computational approaches for the RAG.
After that, we introduce the use of the RAG for realizing safe Reinforcement
Learning (RL), i.e., ensuring all-time constraint satisfaction during online RL
exploration-and-exploitation process. This development enables safe real-time
evolution of the control policy and adaptation to changes in the operating
environment and system parameters (due to aging, damage, etc.). We illustrate
the effectiveness of the RAG in constraint enforcement and safe RL using the
RAG by considering their applications to a soft-landing problem of a
mass-spring-damper system.
- Abstract(参考訳): action governorは名目上の制御ループへのアドオンスキームで、制御アクションを監視し調整し、ポイントワイズインタイム状態と制御制約として表現された安全仕様を強制する。
本稿では, パラメトリックおよび付加的不確実性と非凸制約を考慮した離散時間PWAモデルを用いて, 動的に表現できるシステムに対して, ロバスト・アクション・ガウンジ(RAG)を導入する。
我々はRAGの理論的特性と計算手法を開発した。
その後、安全強化学習(RL)の実現、すなわちオンラインRL探索・探索プロセスにおける全時間制約満足度を確保するためにRAGを導入する。
この開発により、制御ポリシーの安全なリアルタイムな進化と、運用環境やシステムパラメータの変化(老化や損傷などによる)への適応が可能になる。
本稿では,ragを用いた制約強制と安全rlにおけるragの有効性を,マスバネダンパーシステムのソフトランディング問題への適用性を考慮して示す。
関連論文リスト
- Reinforcement Learning with Adaptive Regularization for Safe Control of Critical Systems [2.126171264016785]
安全なRL探索を可能にするアルゴリズムである適応正規化(RL-AR)を提案する。
RL-ARは「フォーカスモジュール」を介してポリシーの組み合わせを行い、状態に応じて適切な組み合わせを決定する。
一連のクリティカルコントロールアプリケーションにおいて、RL-ARはトレーニング中の安全性を保証するだけでなく、モデルフリーなRLの標準との競合も得ることを示した。
論文 参考訳(メタデータ) (2024-04-23T16:35:14Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Safe Control and Learning Using Generalized Action Governor [5.7406123763046955]
本稿では,厳密な制約処理能力を備えた名目クローズドループシステムを強化するための監督スキームである一般行動管理者を紹介する。
リアルタイムデータを用いた制御パラメータを安全に進化させ,不確実なシステムの性能を向上させることを目的とした,安全なオンライン学習への応用について論じる。
論文 参考訳(メタデータ) (2022-11-22T23:25:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Runtime Safety Assurance Using Reinforcement Learning [37.61747231296097]
本稿では,安全でない状況を高精度に識別できるメタコントローラを設計することを目的とする。
我々は,RTSAの設計をマルコフ決定プロセス(MDP)と組み合わせ,強化学習(RL)を用いて解決する。
論文 参考訳(メタデータ) (2020-10-20T20:54:46Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。