論文の概要: NLBAC: A Neural Ordinary Differential Equations-based Framework for
Stable and Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.13148v1
- Date: Tue, 23 Jan 2024 23:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:53:20.881589
- Title: NLBAC: A Neural Ordinary Differential Equations-based Framework for
Stable and Safe Reinforcement Learning
- Title(参考訳): NLBAC: 安定かつ安全な強化学習のためのニューラル正規微分方程式に基づくフレームワーク
- Authors: Liqun Zhao, Keyan Miao, Konstantinos Gatsis, Antonis Papachristodoulou
- Abstract要約: 本稿ではまず,RLシステムの安全性と安定性について述べる。
次に、ニューラル常微分方程式に基づくリアプノフ・バリア・アクター・クライブフレームワークを導入する。
このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。
- 参考スコア(独自算出の注目度): 1.683837623246981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) excels in applications such as video games and
robotics, but ensuring safety and stability remains challenging when using RL
to control real-world systems where using model-free algorithms suffering from
low sample efficiency might be prohibitive. This paper first provides safety
and stability definitions for the RL system, and then introduces a Neural
ordinary differential equations-based Lyapunov-Barrier Actor-Critic (NLBAC)
framework that leverages Neural Ordinary Differential Equations (NODEs) to
approximate system dynamics and integrates the Control Barrier Function (CBF)
and Control Lyapunov Function (CLF) frameworks with the actor-critic method to
assist in maintaining the safety and stability for the system. Within this
framework, we employ the augmented Lagrangian method to update the RL-based
controller parameters. Additionally, we introduce an extra backup controller in
situations where CBF constraints for safety and the CLF constraint for
stability cannot be satisfied simultaneously. Simulation results demonstrate
that the framework leads the system to approach the desired state and allows
fewer violations of safety constraints with better sample efficiency compared
to other methods.
- Abstract(参考訳): 強化学習(rl)はビデオゲームやロボティクスのようなアプリケーションで優れているが、サンプル効率の低下に苦しむモデルフリーアルゴリズムを使用する現実のシステムを制御するためにrlを使用する場合、安全性と安定性の確保は依然として困難である。
本稿では、まず、RLシステムの安全性と安定性を定義し、次に、ニューラル正規微分方程式(NODE)を利用してシステムダイナミクスを近似し、制御バリア関数(CBF)と制御リアプノフ関数(CLF)をアクタークリティカルな手法と組み合わせ、システムの安全性と安定性の維持を支援するニューラル常微分方程式に基づくリアプノフ・バリエ・アクティクス(NLBAC)フレームワークを導入する。
このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。
さらに、安全のためのCBF制約と安定性のためのCLF制約を同時に満たさない状況において、予備のバックアップコントローラを導入する。
シミュレーションの結果,提案手法は他の手法と比較して安全性制約の違反が少なく,サンプル効率も良好であることが判明した。
関連論文リスト
- Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Stable and Safe Reinforcement Learning via a Barrier-Lyapunov
Actor-Critic Approach [1.8924647429604111]
Barrier-Lyapunov Actor-Critic(BLAC)フレームワークは、前述のシステムの安全性と安定性の維持を支援する。
RLベースのコントローラが有効な制御信号を提供できない場合、追加のバックアップコントローラが導入される。
論文 参考訳(メタデータ) (2023-04-08T16:48:49Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。