論文の概要: Neural Control and Certificate Repair via Runtime Monitoring
- arxiv url: http://arxiv.org/abs/2412.12996v1
- Date: Tue, 17 Dec 2024 15:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:31.168240
- Title: Neural Control and Certificate Repair via Runtime Monitoring
- Title(参考訳): ランタイムモニタリングによるニューラルコントロールと認証修復
- Authors: Emily Yu, Đorđe Žikelić, Thomas A. Henzinger,
- Abstract要約: 本稿では,実行時モニタリングを利用して,関心事の性質に反するシステム動作を検出する新しいフレームワークを提案する。
本手法は,ニューラルネットワークの安全性向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 7.146556437126553
- License:
- Abstract: Learning-based methods provide a promising approach to solving highly non-linear control tasks that are often challenging for classical control methods. To ensure the satisfaction of a safety property, learning-based methods jointly learn a control policy together with a certificate function for the property. Popular examples include barrier functions for safety and Lyapunov functions for asymptotic stability. While there has been significant progress on learning-based control with certificate functions in the white-box setting, where the correctness of the certificate function can be formally verified, there has been little work on ensuring their reliability in the black-box setting where the system dynamics are unknown. In this work, we consider the problems of certifying and repairing neural network control policies and certificate functions in the black-box setting. We propose a novel framework that utilizes runtime monitoring to detect system behaviors that violate the property of interest under some initially trained neural network policy and certificate. These violating behaviors are used to extract new training data, that is used to re-train the neural network policy and the certificate function and to ultimately repair them. We demonstrate the effectiveness of our approach empirically by using it to repair and to boost the safety rate of neural network policies learned by a state-of-the-art method for learning-based control on two autonomous system control tasks.
- Abstract(参考訳): 学習に基づく手法は、古典的な制御手法でしばしば困難となる高非線形制御タスクを解決するための有望なアプローチを提供する。
安全性の満足度を確保するため、学習ベースの方法は、資産の認証機能とともに制御ポリシーを共同で学習する。
一般的な例としては、安全性のためのバリア関数や、漸近安定性のためのリャプノフ関数がある。
認証関数の正しさを正式に検証できるホワイトボックス設定では,認証関数による学習ベースの制御が大幅に進歩しているが,システムダイナミクスが不明なブラックボックス設定では,信頼性を確保する作業はほとんど行われていない。
本研究では,ブラックボックス設定におけるニューラルネットワーク制御ポリシと認証関数の認証と修復の問題点について考察する。
本稿では,初期訓練されたニューラルネットワークポリシと証明書の下で,関心の性質に反するシステム動作を検出するために,実行時監視を利用する新しいフレームワークを提案する。
これらの違反行為は、ニューラルネットワークポリシーと証明書機能を再トレーニングし、最終的に修復するために使用される新しいトレーニングデータを抽出するために使用される。
本研究では,2つの自律システム制御タスクを学習ベースで制御する最先端の手法で学習したニューラルネットワークポリシーの安全性を高めるために,修復および安全性向上にこれを用いたアプローチの有効性を実証的に示す。
関連論文リスト
- Transfer of Safety Controllers Through Learning Deep Inverse Dynamics Model [4.7962647777554634]
制御障壁証明書は、制御システムの安全性を正式に保証する上で有効であることが証明されている。
制御障壁証明書の設計は、時間がかかり、計算に費用がかかる作業である。
本稿では,制御器の正当性を保証する妥当性条件を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:28:43Z) - Value Functions are Control Barrier Functions: Verification of Safe
Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。
我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。
我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-06-06T21:41:31Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Learning Stabilizing Policies in Stochastic Control Systems [20.045860624444494]
単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。
本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
論文 参考訳(メタデータ) (2022-05-24T11:38:22Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。