論文の概要: How to Train Your Latent Control Barrier Function: Smooth Safety Filtering Under Hard-to-Model Constraints
- arxiv url: http://arxiv.org/abs/2511.18606v1
- Date: Sun, 23 Nov 2025 20:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.923236
- Title: How to Train Your Latent Control Barrier Function: Smooth Safety Filtering Under Hard-to-Model Constraints
- Title(参考訳): 遅延制御バリア関数のトレーニング方法:ハード・ツー・モデル制約下でのスムース・セーフティ・フィルタ
- Authors: Kensuke Nakamura, Arun L. Bishop, Steven Man, Aaron M. Johnson, Zachary Manchester, Andrea Bajcsy,
- Abstract要約: 本研究では,可到達性値関数を制御障壁関数(CBF)に適応させることにより,最適化に基づくスムーズなフィルタリングを実現する。
本稿では,ラベル付けを伴わずにスムーズなマージン関数に繋がる勾配のペナルティによって,両方の課題に対処するLatentCBFを提案する。
視覚に基づく操作ポリシーによるシミュレーションベンチマークとハードウェアの実験は、LatentCBFがスムーズな安全フィルタリングを可能にすることを示した。
- 参考スコア(独自算出の注目度): 21.03977709777739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent safety filters extend Hamilton-Jacobi (HJ) reachability to operate on latent state representations and dynamics learned directly from high-dimensional observations, enabling safe visuomotor control under hard-to-model constraints. However, existing methods implement "least-restrictive" filtering that discretely switch between nominal and safety policies, potentially undermining the task performance that makes modern visuomotor policies valuable. While reachability value functions can, in principle, be adapted to be control barrier functions (CBFs) for smooth optimization-based filtering, we theoretically and empirically show that current latent-space learning methods produce fundamentally incompatible value functions. We identify two sources of incompatibility: First, in HJ reachability, failures are encoded via a "margin function" in latent space, whose sign indicates whether or not a latent is in the constraint set. However, representing the margin function as a classifier yields saturated value functions that exhibit discontinuous jumps. We prove that the value function's Lipschitz constant scales linearly with the margin function's Lipschitz constant, revealing that smooth CBFs require smooth margins. Second, reinforcement learning (RL) approximations trained solely on safety policy data yield inaccurate value estimates for nominal policy actions, precisely where CBF filtering needs them. We propose the LatentCBF, which addresses both challenges through gradient penalties that lead to smooth margin functions without additional labeling, and a value-training procedure that mixes data from both nominal and safety policy distributions. Experiments on simulated benchmarks and hardware with a vision-based manipulation policy demonstrate that LatentCBF enables smooth safety filtering while doubling the task-completion rate over prior switching methods.
- Abstract(参考訳): 潜時安全フィルタはハミルトン・ヤコビ(HJ)到達性を拡張し、高次元観測から直接学習した潜時状態表現やダイナミクスを操作し、ハード・ツー・モデル制約下で安全な振動子制御を可能にする。
しかし、既存の手法では、名目と安全ポリシーを個別に切り替える「最小限の」フィルタリングを実装しており、現代の振動子政策を価値あるものにするタスクパフォーマンスを損なう可能性がある。
リーチビリティ値関数は、原則として、スムーズな最適化に基づくフィルタリングのために制御障壁関数(CBF)に適応することができるが、理論上、経験的に、現在の潜在空間学習法が根本的に非互換な値関数を生成することを示す。
第一に、HJ到達性において、失敗は遅延空間の「有理関数」を介して符号化され、その符号は遅延が制約集合にあるか否かを示す。
しかし、マージン関数を分類器として表現すると、不連続ジャンプを示す飽和値関数が得られる。
我々は、値関数のリプシッツ定数がマージン関数のリプシッツ定数と線形にスケールすることを証明し、滑らかなCBFは滑らかなマージンを必要とすることを示した。
第2に、安全政策データのみに基づいて訓練された強化学習(RL)近似は、名目上の政策行動に対して不正確な値推定をもたらす。
本稿では,ラベル付けを伴わずにスムーズなマージン関数に導く勾配ペナルティを通した遅延CBFと,名目と安全性の両政策分布からのデータとを混合した値学習手法を提案する。
シミュレーションされたベンチマークとハードウェアを視覚に基づく操作ポリシーで実験した結果、LatentCBFはスムーズな安全フィルタリングを実現すると同時に、タスク完了率を事前の切換法よりも2倍に向上させることができた。
関連論文リスト
- Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Verifiable Safety Q-Filters via Hamilton-Jacobi Reachability and Multiplicative Q-Networks [8.042618833885168]
ハミルトン・ヤコビ到達可能性解析に基づく検証可能なモデルフリー安全フィルタを提案する。
提案手法は,4つの標準安全制御ベンチマークで検証されたモデルフリー安全証明書をうまく合成する。
論文 参考訳(メタデータ) (2025-05-27T18:12:50Z) - Multi-Step Model Predictive Safety Filters: Reducing Chattering by
Increasing the Prediction Horizon [7.55113002732746]
安全フィルタを用いて学習制御ポリシを増強することにより、状態と入力制約の満足度を保証できる。
モデル予測安全フィルタ(MPSF)は、モデル予測制御(MPC)に基づく一般的な安全フィルタリング手法である。
論文 参考訳(メタデータ) (2023-09-20T16:35:29Z) - Wasserstein Distributionally Robust Control Barrier Function using
Conditional Value-at-Risk with Differentiable Convex Programming [4.825619788907192]
制御バリア関数 (CBF) は、現実世界の安全クリティカルシステムのための安全なコントローラの設計に広く注目を集めている。
分布変化下でのレジリエンスを達成するために, 分散ロバストCBFを提案する。
また、高次システムに対するDR-CBFの近似変種も提供する。
論文 参考訳(メタデータ) (2023-09-15T18:45:09Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Gaussian Control Barrier Functions : A Non-Parametric Paradigm to Safety [7.921648699199647]
ガウス過程(GP)を用いたCBFのオンライン合成のための非パラメトリック手法を提案する。
GPは解析的トラクタビリティやロバストな不確実性推定などの非パラメトリック性に加えて、好ましい性質を持つ。
固定的かつ任意の安全な集合に対する安全な制御を実証することにより、クワッド上で実験により検証する。
論文 参考訳(メタデータ) (2022-03-29T12:21:28Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。