論文の概要: Learning Control Policies to Provably Satisfy Hard Affine Constraints for Black-Box Hybrid Dynamical Systems
- arxiv url: http://arxiv.org/abs/2604.22244v1
- Date: Fri, 24 Apr 2026 05:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.356583
- Title: Learning Control Policies to Provably Satisfy Hard Affine Constraints for Black-Box Hybrid Dynamical Systems
- Title(参考訳): ブラックボックスハイブリッド力学系におけるハードアフィン制約を満たすための学習制御法
- Authors: Aayushi Shrivastava, Kartik Nagpal, Sairam Jinkala, Jean-Baptiste Bouvier, Negar Mehr,
- Abstract要約: ブラックボックスハイブリッド力学系に対する閉ループにおけるアフィン状態制約を確実に満たすポリシーを学習する。
我々の重要な洞察は、システムの未知の非線形力学の制約境界付近でRLポリシーを順応し、反発するように強制することである。
クローズドループにおける安全制約を満たす十分な条件を導出する。
- 参考スコア(独自算出の注目度): 5.0292714462286545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring safety for black-box hybrid dynamical systems presents significant challenges due to their instantaneous state jumps and unknown explicit nonlinear dynamics. Existing solutions for strict safety constraint satisfaction, like control barrier functions (CBFs) and reachability analysis, rely on direct knowledge of the dynamics. Similarly, safe reinforcement learning (RL) approaches often rely on known system dynamics or merely discourage safety violations through reward shaping. In this work, we want to learn RL policies which provably satisfy affine state constraints in closed loop for black-box hybrid dynamical systems with affine reset maps. Our key insight is forcing the RL policy to be affine and repulsive near the constraint boundaries for the unknown nonlinear dynamics of the system, providing guarantees that the trajectories will not violate the constraint. We further account for constraint violation due to instantaneous state jumps that occur due to impacts or reset maps in the hybrid system by introducing a second repulsive affine region before the reset that prevents post-reset states from violating the constraint. We derive sufficient conditions under which these policies satisfy safety constraints in closed loop. We also compare our approach with state-of-the-art reward shaping and learned-CBF methods on hybrid dynamical systems like the constrained pendulum and paddle juggler environments. In both scenarios, we show that our methodology learns higher quality policies while always satisfying the safety constraints.
- Abstract(参考訳): ブラックボックスハイブリッド力学系の安全性を確保することは、それらの瞬時状態のジャンプと未知の明示的非線形力学による重要な課題を示す。
制御障壁関数(CBF)や到達可能性解析のような厳格な安全制約満足度のための既存のソリューションは、力学の直接的な知識に依存している。
同様に、安全な強化学習(RL)アプローチは、既知のシステムのダイナミクスに依存する場合が多い。
本研究では、アフィンリセット写像を持つブラックボックスハイブリッド力学系に対する閉ループにおけるアフィン状態制約を確実に満たすRLポリシーを学習したい。
我々の重要な洞察は、RLポリシーをシステムの未知の非線形ダイナミクスの制約境界付近でアフィンで反発させ、トラジェクトリが制約に違反しないことを保証することである。
さらに、リセット後の状態が制約に反するのを防ぐリセット前に、第2の反発性アフィン領域を導入することで、ハイブリッドシステムにおける影響やリセットマップによる即時的な状態ジャンプによる制約違反についても説明する。
クローズドループにおける安全制約を満たす十分な条件を導出する。
我々はまた、制約された振り子やパドルジャグラー環境のようなハイブリッド力学系における最先端の報酬形成と学習-CBF法との比較を行った。
どちらのシナリオにおいても,安全上の制約を常に満たしながら,我々の方法論が高品質なポリシーを学習していることが示される。
関連論文リスト
- Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - On the Design of Safe Continual RL Methods for Control of Nonlinear Systems [2.4920094574814864]
強化学習アルゴリズムは、無人航空機やロボット工学に関連するタスクの制御に成功している。
近年,閉ループにおけるRLアルゴリズムの安全な実行を可能にするために,安全なRLが提案されている。
システムの安全性に対する継続的な適応は、未検討の問題である。
論文 参考訳(メタデータ) (2025-02-21T20:34:40Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。