論文の概要: Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.26452v1
- Date: Tue, 26 May 2026 02:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.572595
- Title: Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning
- Title(参考訳): 安全なアクター・クリティカル強化学習のためのロバストクープマン制御バリアフィルタ
- Authors: Dhruv S. Kushwaha, Zoleikha A. Biron,
- Abstract要約: 本研究では,データから有限次元クープマン予測器を学習する安全フィルタ型アクター批判フレームワークを提案する。
この手法は、制約のないSACリターンをマッチングまたは超過しながら、CartPoleの安定化とトラッキングに対する制約違反をゼロにする。
これらの結果から,ロバストなクープマン-CBFフィルタはモデルレスRLと証明可能な安全性の間に有望な橋渡しとなることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (RL) for robotic systems requires policies that improve task performance while satisfying state and input constraints during both training and deployment. Control barrier functions (CBFs) provide a principled mechanism for enforcing forward invariance through minimally invasive safety filters, but their use in model-free RL is limited by the need for accurate dynamics and hand-designed barrier certificates. We propose Robust Koopman-CBF SAC, a safety-filtered actor--critic framework that learns a finite-dimensional Koopman predictor from data, constructs affine CBF constraints in the lifted space, and enforces them through a quadratic-program safety layer. To account for finite-dimensional Koopman approximation error, the CBF condition is tightened using a projected residual margin estimated from held-out rollout data. The critic is trained on the executed safe action, while the actor is regularized toward the Koopman-CBF feasible set, reducing dependence on the filter over training. Across safe-control benchmarks, the method achieves zero constraint violations on CartPole stabilization and tracking while matching or exceeding unconstrained SAC returns. On high-dimensional Safety Gymnasium locomotion tasks, the method reduces violations in some settings but also exposes important limitations of first-order velocity barriers and linear EDMD models, motivating high-order and multi-step Koopman-CBF extensions. These results suggest that robust Koopman-CBF filters are a promising bridge between model-free RL and certifiable safety, while clarifying the structural conditions under which such filters remain effective. All code is available at \href{https://github.com/DhruvKushwaha/Koopman-CBF-Soft-Actor-Critic}{Github Repository}.
- Abstract(参考訳): ロボットシステムの安全強化学習(RL)には、トレーニングとデプロイメントの両方において、状態と入力の制約を満たしながらタスクパフォーマンスを向上させるポリシーが必要である。
制御バリア関数(CBF)は、最小侵襲の安全フィルタを通して前方不変性を強制する原則的なメカニズムを提供するが、モデルフリーなRLでの使用は、正確なダイナミクスと手動設計のバリア証明書の必要性によって制限される。
本稿では,データから有限次元クープマン予測器を学習し,昇降空間にアフィンCBF制約を構築し,二次プログラムセーフティ層を通じてそれらを強制する安全フィルター付きアクター批判フレームワークであるRobust Koopman-CBF SACを提案する。
有限次元クープマン近似誤差を考慮に入れ, ホールドアウトロールアウトデータから推定した残差残差を用いてCBF条件を締め付ける。
批評家は、実行された安全なアクションを訓練し、アクターは、Koopman-CBFの実現可能なセットに向けて正規化され、トレーニング中のフィルタへの依存を減らす。
安全制御ベンチマーク全体では、CartPoleの安定化とトラッキングに対する制約違反をゼロとし、制約のないSACリターンをマッチングまたは超過する。
高次元Gymnasiumロコモーションタスクでは、いくつかの設定における違反を低減しつつ、一階速度障壁と線形EDMDモデルの重要な制限を明らかにし、高階および多段のKoopman-CBF拡張を動機付けている。
これらの結果から,ロバストなクープマン-CBFフィルタはモデルレスRLと証明可能な安全性との間に有望な橋渡しであり,そのようなフィルタが有効である構造条件を明らかにした。
すべてのコードは \href{https://github.com/DhruvKushwaha/Koopman-CBF-Soft-Actor-Critic}{Github Repository} で公開されている。
関連論文リスト
- Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Safety-Guaranteed Imitation Learning from Nonlinear Model Predictive Control for Spacecraft Close Proximity Operations [39.146761527401424]
本稿では,宇宙船近接制御のための安全保証型,実行時効率の模倣学習フレームワークを提案する。
安全証明書にはCBF(Control Barrier Functions)、安定性にはCLF(Control Lyapunov Functions)を活用しています。
実行時分析では、市販のオフザシェルフプロセッサでリアルタイムに実現可能であることを示し、安全クリティカルな軌道上サービスのためのオンボードデプロイメントをサポートする。
論文 参考訳(メタデータ) (2026-03-19T13:47:18Z) - Layered Safety: Enhancing Autonomous Collision Avoidance via Multistage CBF Safety Filters [18.386652442201665]
本稿では,ロバストで信頼性の高い層状安全フィルタを構築するための汎用的なエンドツーエンドフレームワークを提案する。
ロボット中心の点雲が与えられた場合、我々は、ポアソン安全関数(PSF)を合成するために使用される占有マップを構築することから始める。
PSFは2つの異なる安全濾過段階において制御バリア機能(CBF)として使用される。
論文 参考訳(メタデータ) (2026-02-27T22:19:45Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - How to Train Your Latent Control Barrier Function: Smooth Safety Filtering Under Hard-to-Model Constraints [21.03977709777739]
本研究では,可到達性値関数を制御障壁関数(CBF)に適応させることにより,最適化に基づくスムーズなフィルタリングを実現する。
本稿では,ラベル付けを伴わずにスムーズなマージン関数に繋がる勾配のペナルティによって,両方の課題に対処するLatentCBFを提案する。
視覚に基づく操作ポリシーによるシミュレーションベンチマークとハードウェアの実験は、LatentCBFがスムーズな安全フィルタリングを可能にすることを示した。
論文 参考訳(メタデータ) (2025-11-23T20:15:28Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。