論文の概要: Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions
- arxiv url: http://arxiv.org/abs/2104.08171v1
- Date: Fri, 16 Apr 2021 15:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:08:48.569618
- Title: Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions
- Title(参考訳): 制御障壁関数を用いたモデルベース強化学習における安全な探索
- Authors: Max H. Cohen and Calin Belta
- Abstract要約: 我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
- 参考スコア(独自算出の注目度): 1.005130974691351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of developing an approximate dynamic
programming (ADP) framework for learning online the value function of an
infinite-horizon optimal problem while obeying safety constraints expressed as
control barrier functions (CBFs). Our approach is facilitated by the
development of a novel class of CBFs, termed Lyapunov-like CBFs (LCBFs), that
retain the beneficial properties of CBFs for developing minimally-invasive safe
control policies while also possessing desirable Lyapunov-like qualities such
as positive semi-definiteness. We show how these LCBFs can be used to augment a
learning-based control policy so as to guarantee safety and then leverage this
approach to develop a safe exploration framework in a model-based reinforcement
learning setting. We demonstrate that our developed approach can handle more
general safety constraints than state-of-the-art safe ADP methods through a
variety of numerical examples.
- Abstract(参考訳): 本稿では,制御障壁関数 (CBF) として表現される安全制約に従いながら,無限水平最適問題の値関数をオンライン学習するための近似動的プログラミング (ADP) フレームワークの開発について検討する。
Lyapunov-like CBFs(Lyapunov-like CBFs)と呼ばれる新しいCBFsの開発が促進され,CBFsの安全性が保たれるとともに,好適な半定性などのLyapunov-likeの品質も確保できる。
モデルに基づく強化学習環境において,これらのLCBFが,安全性を保証するために学習ベースの制御ポリシーを強化するためにどのように使用できるかを示す。
提案手法は,本手法よりもより一般的な安全性の制約を,様々な数値例を通して処理できることを実証する。
関連論文リスト
- Towards Safe Load Balancing based on Control Barrier Functions and Deep
Reinforcement Learning [0.691367883100748]
我々は,SD-WAN(Software Defined-Wide Area Network)のための安全な学習に基づくロードバランシングアルゴリズムを提案する。
制御バリア関数(CBF)を併用した深層強化学習(DRL)によって強化される。
提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)を提供することを示す。
論文 参考訳(メタデータ) (2024-01-10T19:43:12Z) - Model-Assisted Probabilistic Safe Adaptive Control With Meta-Bayesian
Learning [33.75998206184497]
メタラーニング,ベイズモデル,制御バリア関数(CBF)メソッドを統合した新しい適応型安全制御フレームワークを開発した。
具体的には、CBF法の助けを借りて、統一適応ベイズ線形回帰モデルにより固有不確かさと外部不確かさを学習する。
新しい制御タスクのために,いくつかのサンプルを用いてメタ学習モデルを洗練し,安全制御を確保するためにCBF制約に悲観的信頼境界を導入する。
論文 参考訳(メタデータ) (2023-07-03T08:16:01Z) - On the Optimality, Stability, and Feasibility of Control Barrier
Functions: An Adaptive Learning-Based Approach [4.399563188884702]
制御バリア機能(CBF)とその変種は、安全クリティカルな制御のために広く注目を集めている。
現在のCBFには、最適性、安定性、実現可能性という根本的な制限がある。
本稿では,適応多段階制御バリア関数 (AM-CBF) を提案し,ニューラルネットワークを用いてクラス$mathcalK$関数をパラメータ化し,強化学習ポリシーとともに学習する。
論文 参考訳(メタデータ) (2023-05-05T15:11:28Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reinforcement Learning for Safety-Critical Control under Model
Uncertainty, using Control Lyapunov Functions and Control Barrier Functions [96.63967125746747]
強化学習フレームワークは、CBFおよびCLF制約に存在するモデル不確実性を学ぶ。
RL-CBF-CLF-QPは、安全制約におけるモデル不確実性の問題に対処する。
論文 参考訳(メタデータ) (2020-04-16T10:51:33Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。