論文の概要: Learning Verifiable Control Policies Using Relaxed Verification
- arxiv url: http://arxiv.org/abs/2504.16879v1
- Date: Wed, 23 Apr 2025 16:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:10:41.525508
- Title: Learning Verifiable Control Policies Using Relaxed Verification
- Title(参考訳): Relaxed Verification を用いた検証可能な制御ポリシーの学習
- Authors: Puja Chaudhury, Alexander Estornell, Michael Everett,
- Abstract要約: 本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
- 参考スコア(独自算出の注目度): 49.81690518952909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To provide safety guarantees for learning-based control systems, recent work has developed formal verification methods to apply after training ends. However, if the trained policy does not meet the specifications, or there is conservatism in the verification algorithm, establishing these guarantees may not be possible. Instead, this work proposes to perform verification throughout training to ultimately aim for policies whose properties can be evaluated throughout runtime with lightweight, relaxed verification algorithms. The approach is to use differentiable reachability analysis and incorporate new components into the loss function. Numerical experiments on a quadrotor model and unicycle model highlight the ability of this approach to lead to learned control policies that satisfy desired reach-avoid and invariance specifications.
- Abstract(参考訳): 学習に基づく制御システムの安全性を保証するため、最近の研究は、トレーニング終了後に適用するための公式な検証方法を開発した。
しかし、トレーニングされたポリシーが仕様を満たしていない場合や、検証アルゴリズムに保守性がある場合、これらの保証を確立することは不可能である。
代わりに、この研究はトレーニング全体を通して検証を行うことを提案し、究極的には、軽量でリラックスした検証アルゴリズムで、ランタイム全体を通してプロパティを評価可能なポリシーを目指している。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
四輪車モデルと一輪車モデルに関する数値実験は、望まれるリーチ・アビドおよび不変性仕様を満たす学習された制御ポリシーを導くためのこのアプローチの能力を強調している。
関連論文リスト
- Neural Control and Certificate Repair via Runtime Monitoring [7.146556437126553]
本稿では,実行時モニタリングを利用して,関心事の性質に反するシステム動作を検出する新しいフレームワークを提案する。
本手法は,ニューラルネットワークの安全性向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-17T15:15:30Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Verification-Aided Learning of Neural Network Barrier Functions with
Termination Guarantees [6.9060054915724]
バリア関数は、システムの安全性を保証するための一般的なフレームワークである。
これらの関数を見つける一般的な方法は存在しない。
近年のアプローチでは、自己教師付き学習技術を用いてこれらの機能を学習している。
論文 参考訳(メタデータ) (2024-03-12T04:29:43Z) - Value Functions are Control Barrier Functions: Verification of Safe
Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。
我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。
我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-06-06T21:41:31Z) - Learning Control Policies for Stochastic Systems with Reach-avoid
Guarantees [20.045860624444494]
本研究では,形式的リーチ回避保証付き離散時間非線形力学系における学習制御装置の問題点について検討する。
我々は,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。
当社のアプローチでは,コントロールポリシをスクラッチから学習したり,固定されたコントロールポリシのリーチ回避仕様を検証したり,事前訓練されたポリシを微調整したり,といった,いくつかの重要な問題を解決しています。
論文 参考訳(メタデータ) (2022-10-11T10:02:49Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。