論文の概要: CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions
- arxiv url: http://arxiv.org/abs/2510.14959v1
- Date: Thu, 16 Oct 2025 17:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.99579
- Title: CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions
- Title(参考訳): CBF-RL:制御バリア機能を有するトレーニングにおける安全フィルタリング強化学習
- Authors: Lizhi Yang, Blake Werner, Massimiliano de Sa Aaron D. Ames,
- Abstract要約: 制御バリア関数(CBF)は、動的安全性を強制する原則的な方法を提供する。
本稿では,CBFs emphin トレーニングを施行することにより,RL による安全な行動を生成するためのフレームワークであるCBF-RLを提案する。
我々は、CBF-RLが学習ポリシーの安全性制約を内部化し、オンライン安全フィルタを必要とせずに安全な配置を可能にすることを実証した。
- 参考スコア(独自算出の注目度): 2.121963121603413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL), while powerful and expressive, can often prioritize performance at the expense of safety. Yet safety violations can lead to catastrophic outcomes in real-world deployments. Control Barrier Functions (CBFs) offer a principled method to enforce dynamic safety -- traditionally deployed \emph{online} via safety filters. While the result is safe behavior, the fact that the RL policy does not have knowledge of the CBF can lead to conservative behaviors. This paper proposes CBF-RL, a framework for generating safe behaviors with RL by enforcing CBFs \emph{in training}. CBF-RL has two key attributes: (1) minimally modifying a nominal RL policy to encode safety constraints via a CBF term, (2) and safety filtering of the policy rollouts in training. Theoretically, we prove that continuous-time safety filters can be deployed via closed-form expressions on discrete-time roll-outs. Practically, we demonstrate that CBF-RL internalizes the safety constraints in the learned policy -- both enforcing safer actions and biasing towards safer rewards -- enabling safe deployment without the need for an online safety filter. We validate our framework through ablation studies on navigation tasks and on the Unitree G1 humanoid robot, where CBF-RL enables safer exploration, faster convergence, and robust performance under uncertainty, enabling the humanoid robot to avoid obstacles and climb stairs safely in real-world settings without a runtime safety filter.
- Abstract(参考訳): 強化学習(RL)は強力で表現力に富むが、安全を犠牲にして性能を優先することも多い。
しかし、安全違反は、現実世界の展開において破滅的な結果をもたらす可能性がある。
制御バリア関数(CBFs)は、動的安全性を強制する原則的な方法を提供する。
その結果は安全な行動であるが、RL政策がCBFの知識を持っていないという事実は保守的な行動につながる可能性がある。
本稿では,CBFs \emph{in training} を施行することにより,RL による安全な動作を生成するためのフレームワークであるCBF-RLを提案する。
CBF-RL には、(1) CBF 項を介して安全制約を符号化する名目RL ポリシーを最小限に修正すること、(2) 訓練中のポリシーロールアウトの安全性フィルタリングである。
理論的には、連続時間安全フィルタは離散時間ロールアウト上でクローズドフォーム表現によって展開可能であることを証明している。
実際に、CBF-RLは、学習したポリシーの安全性の制約 -- より安全なアクションの実施とより安全な報酬へのバイアス -- を内部化して、オンラインの安全フィルタを必要とせずに安全なデプロイメントを可能にすることを実証しています。
CBF-RLにより、より安全な探索、より高速な収束、不確実性下での堅牢な性能を実現し、人型ロボットが障害物を回避し、実行時安全フィルタを使わずに現実の環境で階段を安全に登れるようにし、ナビゲーションタスクとUnitree G1ヒューマノイドロボットのアブレーション研究を通じて、我々の枠組みを検証する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Reachability Constrained Reinforcement Learning [6.5158195776494]
本稿では、到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。
また、マルチ時間スケール近似理論を用いて、提案アルゴリズムが局所最適化に収束することを証明する。
安全な制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、学習可能なセット、最適基準における性能、RCRLの制約満足度などを検証する。
論文 参考訳(メタデータ) (2022-05-16T09:32:45Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。