論文の概要: Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions
- arxiv url: http://arxiv.org/abs/2211.17250v3
- Date: Mon, 28 Aug 2023 19:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:09:24.358452
- Title: Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions
- Title(参考訳): 外乱オブザーバに基づく制御障壁関数を用いた安全かつ効率的な強化学習
- Authors: Yikun Cheng, Pan Zhao and Naira Hovakimyan
- Abstract要約: 本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 5.571154223075409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) with assured satisfaction of hard state
constraints during training has recently received a lot of attention. Safety
filters, e.g., based on control barrier functions (CBFs), provide a promising
way for safe RL via modifying the unsafe actions of an RL agent on the fly.
Existing safety filter-based approaches typically involve learning of uncertain
dynamics and quantifying the learned model error, which leads to conservative
filters before a large amount of data is collected to learn a good model,
thereby preventing efficient exploration. This paper presents a method for safe
and efficient RL using disturbance observers (DOBs) and control barrier
functions (CBFs). Unlike most existing safe RL methods that deal with hard
state constraints, our method does not involve model learning, and leverages
DOBs to accurately estimate the pointwise value of the uncertainty, which is
then incorporated into a robust CBF condition to generate safe actions. The
DOB-based CBF can be used as a safety filter with model-free RL algorithms by
minimally modifying the actions of an RL agent whenever necessary to ensure
safety throughout the learning process. Simulation results on a unicycle and a
2D quadrotor demonstrate that the proposed method outperforms a
state-of-the-art safe RL algorithm using CBFs and Gaussian processes-based
model learning, in terms of safety violation rate, and sample and computational
efficiency.
- Abstract(参考訳): トレーニング中の厳しい状態制約を確実に満足させる安全な強化学習(RL)が近年注目されている。
例えば、制御障壁関数(CBF)に基づく安全フィルタは、RLエージェントの安全でない動作をオンザフライで変更することで、安全RLのための有望な方法を提供する。
既存の安全フィルタベースのアプローチでは、不確実なダイナミクスの学習と学習モデルエラーの定量化が一般的であり、大量のデータが収集される前に保守的なフィルタを発生させ、優れたモデルを学ぶ。
本稿では,外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的なRLを提案する。
ハードステート制約に対処する既存の安全RL手法とは異なり、我々の手法はモデル学習を伴わず、DOBを用いて不確実性のポイントワイド値を正確に推定し、安全行動を生成するために頑健なCBF条件に組み込む。
DOBベースのCBFは、学習プロセス全体を通して安全性を確保するために必要なRLエージェントの動作を最小限に変更することにより、モデルフリーなRLアルゴリズムによる安全フィルタとして使用できる。
一輪車と2次元四輪車のシミュレーション結果から,CBFとガウス過程に基づくモデル学習を用いた最先端の安全RLアルゴリズムを,安全性違反率,サンプルおよび計算効率の観点から比較した。
関連論文リスト
- Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。