論文の概要: Formal Synthesis of Certifiably Robust Neural Lyapunov-Barrier Certificates
- arxiv url: http://arxiv.org/abs/2602.05311v1
- Date: Thu, 05 Feb 2026 05:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.766796
- Title: Formal Synthesis of Certifiably Robust Neural Lyapunov-Barrier Certificates
- Title(参考訳): 好適にロバストな神経リプノフバリア証明書の形式的合成
- Authors: Chengxiao Wang, Haoze Wu, Gagandeep Singh,
- Abstract要約: システム力学における摂動下での保証を維持するために, インプロバスト型神経リプノフバリア証明書を合成する問題について検討する。
我々は,これらの条件を,敵対的トレーニング,リプシッツ地区境界,グローバルリプシッツ正規化を通じて実施する実践的な訓練目標を提案する。
本研究は, 動的摂動下での安全RLのための堅牢なニューラルネットワーク証明書のトレーニングの有効性を実証した。
- 参考スコア(独自算出の注目度): 9.62123513414546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural Lyapunov and barrier certificates have recently been used as powerful tools for verifying the safety and stability properties of deep reinforcement learning (RL) controllers. However, existing methods offer guarantees only under fixed ideal unperturbed dynamics, limiting their reliability in real-world applications where dynamics may deviate due to uncertainties. In this work, we study the problem of synthesizing \emph{robust neural Lyapunov barrier certificates} that maintain their guarantees under perturbations in system dynamics. We formally define a robust Lyapunov barrier function and specify sufficient conditions based on Lipschitz continuity that ensure robustness against bounded perturbations. We propose practical training objectives that enforce these conditions via adversarial training, Lipschitz neighborhood bound, and global Lipschitz regularization. We validate our approach in two practically relevant environments, Inverted Pendulum and 2D Docking. The former is a widely studied benchmark, while the latter is a safety-critical task in autonomous systems. We show that our methods significantly improve both certified robustness bounds (up to $4.6$ times) and empirical success rates under strong perturbations (up to $2.4$ times) compared to the baseline. Our results demonstrate effectiveness of training robust neural certificates for safe RL under perturbations in dynamics.
- Abstract(参考訳): ニューラルリアプノフとバリア証明書は、最近、深層強化学習(RL)コントローラの安全性と安定性を検証するための強力なツールとして使われている。
しかし、既存の手法は固定された理想的非摂動力学の下でのみ保証を提供し、不確実性により力学が逸脱する可能性がある現実世界のアプリケーションでは信頼性を制限している。
本研究では,システム力学における摂動下での保証を維持できる「emph{robust neural Lyapunov barrier certificates」の合成問題について検討する。
我々は、ロバストなリャプノフ障壁関数を正式に定義し、有界摂動に対するロバスト性を保証するリプシッツ連続性に基づく十分条件を規定する。
我々は,これらの条件を,敵対的トレーニング,リプシッツ地区境界,グローバルリプシッツ正規化を通じて実施する実践的な訓練目標を提案する。
Inverted Pendulum と 2D Docking の2つの実用的な環境におけるアプローチを検証する。
前者は広く研究されているベンチマークであり、後者は自律システムにおける安全クリティカルなタスクである。
提案手法は, 高い摂動(最大2.4ドル)下での試験的成功率(最大4.6ドル)と, 証明された堅牢性境界(最大4.6ドル倍)の両方を, ベースラインと比較して有意に改善することを示した。
本研究は, 動的摂動下での安全RLのための堅牢なニューラルネットワーク証明書のトレーニングの有効性を実証した。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Pruning Cannot Hurt Robustness: Certified Trade-offs in Reinforcement Learning [6.883578421923203]
我々は,国家のマルコフ決定プロセスにおけるプルーニングの下での確証された堅牢性に関する最初の理論的枠組みを開発する。
クリーンタスク性能,プルーニングによるパフォーマンス損失,ロバスト性向上を両立させる新しい3段階の後悔分解を導出する。
論文 参考訳(メタデータ) (2025-10-14T19:35:27Z) - Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。
エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文 参考訳(メタデータ) (2025-06-12T16:34:19Z) - Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Adversarially Robust Stability Certificates can be Sample-Efficient [14.658040519472646]
未知の非線形力学系に対する逆向きに頑健な安定性証明について考察する。
敵安定証明書を学習する統計的コストは,定型的安定性証明書を学習するのと同程度であることを示す。
論文 参考訳(メタデータ) (2021-12-20T17:23:31Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。
リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。
本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-06T19:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。