Fugu-MT 論文翻訳(概要): Joint Differentiable Optimization and Verification for Certified Reinforcement Learning

論文の概要: Joint Differentiable Optimization and Verification for Certified Reinforcement Learning

arxiv url: http://arxiv.org/abs/2201.12243v2
Date: Tue, 21 Mar 2023 04:41:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 05:23:08.438316
Title: Joint Differentiable Optimization and Verification for Certified Reinforcement Learning
Title（参考訳）: 認証強化学習のための共同微分可能最適化と検証
Authors: Yixuan Wang, Simon Zhan, Zhilu Wang, Chao Huang, Zhaoran Wang, Zhuoran Yang, Qi Zhu
Abstract要約: 安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
参考スコア（独自算出の注目度）: 91.93635157885055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In model-based reinforcement learning for safety-critical control systems, it is important to formally certify system properties (e.g., safety, stability) under the learned controller. However, as existing methods typically apply formal verification \emph{after} the controller has been learned, it is sometimes difficult to obtain any certificate, even after many iterations between learning and verification. To address this challenge, we propose a framework that jointly conducts reinforcement learning and formal verification by formulating and solving a novel bilevel optimization problem, which is differentiable by the gradients from the value function and certificates. Experiments on a variety of examples demonstrate the significant advantages of our framework over the model-based stochastic value gradient (SVG) method and the model-free proximal policy optimization (PPO) method in finding feasible controllers with barrier functions and Lyapunov functions that ensure system safety and stability.
Abstract（参考訳）: 安全クリティカル制御システムのためのモデルベース強化学習では、学習コントローラの下でシステム特性(例えば、安全性、安定性)を正式に認定することが重要である。しかし、既存の手法は一般に正式な検証を施すため、コントローラが学習されているため、学習と検証を何度も繰り返したとしても、証明書を得るのは難しいことがある。そこで,本稿では,価値関数や証明書から勾配によって微分可能な新しい二段階最適化問題を定式化・解決することにより,強化学習と形式検証を共同で行う枠組みを提案する。 svg(model-based stochastic value gradient)法やppo(model-free proximal policy optimization)法に比べて,バリア関数やリアプノフ関数によるシステム安全性と安定性を確保するための実現可能なコントローラを見つける上で,様々な例で実験を行った。

関連論文リスト

Data-Driven Distributionally Robust Safety Verification Using Barrier Certificates and Conditional Mean Embeddings [0.24578723416255752]
問題を非現実的な仮定にシフトすることなく,スケーラブルな形式検証アルゴリズムを開発する。問題を非現実的な仮定にシフトさせることなく,スケーラブルな形式検証アルゴリズムを開発するためには,バリア証明書の概念を用いる。本稿では,2乗法最適化とガウス過程エンベロープを用いて効率よくプログラムを解く方法を示す。
論文参考訳（メタデータ） (2024-03-15T17:32:02Z)
Enhancing Security in Federated Learning through Adaptive Consensus-Based Model Update Validation [2.28438857884398]
本稿では,ラベルフリップ攻撃に対して,FL(Federated Learning)システムを構築するための高度なアプローチを提案する。本稿では,適応的しきい値設定機構と統合されたコンセンサスに基づく検証プロセスを提案する。以上の結果から,FLシステムのレジリエンスを高め,ラベルフリップ攻撃の顕著な緩和効果が示唆された。
論文参考訳（メタデータ） (2024-03-05T20:54:56Z)
Safe Online Dynamics Learning with Initially Unknown Models and Infeasible Safety Certificates [45.72598064481916]
本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
論文参考訳（メタデータ） (2023-11-03T14:23:57Z)
A General Framework for Verification and Control of Dynamical Models via Certificate Synthesis [54.959571890098786]
システム仕様を符号化し、対応する証明書を定義するためのフレームワークを提供する。コントローラと証明書を形式的に合成する自動化手法を提案する。我々のアプローチは、ニューラルネットワークの柔軟性を利用して、制御のための安全な学習の幅広い分野に寄与する。
論文参考訳（メタデータ） (2023-09-12T09:37:26Z)
Value Functions are Control Barrier Functions: Verification of Safe Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文参考訳（メタデータ） (2023-06-06T21:41:31Z)
Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文参考訳（メタデータ） (2022-08-23T05:02:09Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Learning Stability Certificates from Data [19.381365606166725]
我々は,軌道データのみから認証関数を学習するアルゴリズムを開発した。このような一般化誤差境界を大域的安定性保証に変換する。複雑な力学の証明を効率的に学習できることを実証的に実証する。
論文参考訳（メタデータ） (2020-08-13T14:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。