論文の概要: Your Value Function is a Control Barrier Function: Verification of
Learned Policies using Control Theory
- arxiv url: http://arxiv.org/abs/2306.04026v1
- Date: Tue, 6 Jun 2023 21:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:09:16.905282
- Title: Your Value Function is a Control Barrier Function: Verification of
Learned Policies using Control Theory
- Title(参考訳): 価値関数は制御障壁関数である:制御理論を用いた学習ポリシーの検証
- Authors: Daniel C.H. Tan and Fernando Acero and Robert McCarthy and Dimitrios
Kanoulas and Zhibin Alex Li
- Abstract要約: 本稿では,制御理論における検証手法を学習値関数に適用することを提案する。
安全維持のための簡単なタスク構造を解析することにより、値関数とバリア関数をリンクする元の定理を導出する。
証明書学習の新しい手法を提案することに加えて、我々の研究は、RLポリシーの制御理論における豊富な検証手法を解き放つ。
- 参考スコア(独自算出の注目度): 60.80960068762719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although RL is highly general and scalable, the difficulty of verifying
policy behaviours poses challenges for safety-critical applications. To remedy
this, we propose to apply verification methods used in control theory to
learned value functions. By analyzing a simple task structure for safety
preservation, we derive original theorems linking value functions to control
barrier functions. Inspired by this, we propose novel metrics for verification
of value functions in safe control tasks, and practical implementation details
that improve learning. Besides proposing a novel method for certificate
learning, our work unlocks a wealth of verification methods in control theory
for RL policies, and represents a first step towards a framework for general,
scalable, and verifiable design of control systems.
- Abstract(参考訳): RLは非常に汎用的でスケーラブルであるが、ポリシーの動作を検証することの難しさは、安全クリティカルなアプリケーションに課題をもたらす。
そこで本研究では,制御理論における検証手法を学習値関数に適用することを提案する。
安全維持のための簡単なタスク構造を解析することにより、値関数とバリア関数をリンクする元の定理を導出する。
そこで本研究では,安全制御タスクにおける価値関数の検証のための新しい指標と,学習を改善する実践的実装の詳細を提案する。
認証学習のための新しい手法を提案するだけでなく、rlポリシーの制御理論における豊富な検証方法を解き明かすとともに、制御システムの汎用的でスケーラブルで検証可能な設計のためのフレームワークへの第一歩を示している。
関連論文リスト
- Reinforcement Learning with Adaptive Regularization for Safe Control of Critical Systems [2.126171264016785]
安全なRL探索を可能にするアルゴリズムである適応正規化(RL-AR)を提案する。
RL-ARは「フォーカスモジュール」を介してポリシーの組み合わせを行い、状態に応じて適切な組み合わせを決定する。
一連のクリティカルコントロールアプリケーションにおいて、RL-ARはトレーニング中の安全性を保証するだけでなく、モデルフリーなRLの標準との競合も得ることを示した。
論文 参考訳(メタデータ) (2024-04-23T16:35:14Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Joint Synthesis of Safety Certificate and Safe Control Policy using
Constrained Reinforcement Learning [7.658716383823426]
有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数である。
既存の学習に基づく研究は、安全証明書と安全管理ポリシーを、相互に学ぶための事前知識として扱う。
本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-15T12:05:44Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Safe Reinforcement Learning Using Robust Action Governor [6.833157102376731]
Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。
本論文では, RLアルゴリズムとアドオン安全監視モジュールの統合に基づく安全RLの枠組みについて紹介する。
自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。
論文 参考訳(メタデータ) (2021-02-21T16:50:17Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。