論文の概要: Stable and Safe Reinforcement Learning via a Barrier-Lyapunov
Actor-Critic Approach
- arxiv url: http://arxiv.org/abs/2304.04066v2
- Date: Fri, 15 Sep 2023 18:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:20:13.325787
- Title: Stable and Safe Reinforcement Learning via a Barrier-Lyapunov
Actor-Critic Approach
- Title(参考訳): Barrier-Lyapunov Actor-Critic アプローチによる安定かつ安全な強化学習
- Authors: Liqun Zhao, Konstantinos Gatsis, Antonis Papachristodoulou
- Abstract要約: Barrier-Lyapunov Actor-Critic(BLAC)フレームワークは、前述のシステムの安全性と安定性の維持を支援する。
RLベースのコントローラが有効な制御信号を提供できない場合、追加のバックアップコントローラが導入される。
- 参考スコア(独自算出の注目度): 1.8924647429604111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated impressive performance in
various areas such as video games and robotics. However, ensuring safety and
stability, which are two critical properties from a control perspective,
remains a significant challenge when using RL to control real-world systems. In
this paper, we first provide definitions of safety and stability for the RL
system, and then combine the control barrier function (CBF) and control
Lyapunov function (CLF) methods with the actor-critic method in RL to propose a
Barrier-Lyapunov Actor-Critic (BLAC) framework which helps maintain the
aforementioned safety and stability for the system. In this framework, CBF
constraints for safety and CLF constraint for stability are constructed based
on the data sampled from the replay buffer, and the augmented Lagrangian method
is used to update the parameters of the RL-based controller. Furthermore, an
additional backup controller is introduced in case the RL-based controller
cannot provide valid control signals when safety and stability constraints
cannot be satisfied simultaneously. Simulation results show that this framework
yields a controller that can help the system approach the desired state and
cause fewer violations of safety constraints compared to baseline algorithms.
- Abstract(参考訳): 強化学習(rl)はビデオゲームやロボティクスといった様々な分野で印象的なパフォーマンスを示している。
しかしながら、制御の観点からは2つの重要な特性である安全性と安定性を確保することは、現実のシステムを制御するためにrlを使用する場合の大きな課題である。
本稿では、まず、RLシステムの安全性と安定性を定義し、次に制御バリア関数(CBF)と制御リアプノフ関数(CLF)をRLのアクター・クリティカルな手法と組み合わせ、前述の安全性と安定性を維持するためのバリア・リャプノフ・アクター・クリティカル(BLAC)フレームワークを提案する。
このフレームワークでは、リプレイバッファからサンプリングされたデータに基づいて安全のためのcbf制約と安定性のためのclf制約を構築し、rlベースのコントローラのパラメータを更新するために拡張ラグランジアン法を用いる。
さらに、安全性と安定性の制約を同時に満たさない場合に、RLベースのコントローラが有効な制御信号を提供できない場合に、追加のバックアップコントローラを導入する。
シミュレーションの結果、このフレームワークはシステムが望ましい状態に近づくのに役立ち、ベースラインアルゴリズムと比較して安全性制約の違反が少なくなることを示す。
関連論文リスト
- Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints [50.920465513162334]
入力制約下での動的システムの内部安全集合を最大化するPCBFアルゴリズムを提案する。
逆振り子に対するハミルトン・ヤコビの到達性との比較と,12次元四元数系のシミュレーションにより,その有効性を検証する。
その結果,PCBFは既存の手法を一貫して上回り,入力制約下での安全性を確保した。
論文 参考訳(メタデータ) (2024-10-05T18:45:19Z) - Reinforcement Learning-based Receding Horizon Control using Adaptive Control Barrier Functions for Safety-Critical Systems [14.166970599802324]
最適制御法は、安全クリティカルな問題に対する解決策を提供するが、容易に難解になる。
モデル予測制御を利用した強化学習に基づく回帰水平制御手法を提案する。
我々は、コネクテッド・アンド・オートマチック・ビークルにおける自動マージ制御問題に適用し、本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-03-26T02:49:08Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Learning Robust Hybrid Control Barrier Functions for Uncertain Systems [68.30783663518821]
我々は,ロバストな安全を確保する制御則を合成する手段として,ロバストなハイブリッド制御障壁関数を提案する。
この概念に基づき,データからロバストなハイブリッド制御障壁関数を学習するための最適化問題を定式化する。
我々の技術は、モデル不確実性の対象となるコンパス歩行歩行者の魅力領域を安全に拡張することを可能にする。
論文 参考訳(メタデータ) (2021-01-16T17:53:35Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。