論文の概要: Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2104.10219v1
- Date: Tue, 20 Apr 2021 19:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 02:40:12.149112
- Title: Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における検証制御器のスケーラブルな合成
- Authors: Zikang Xiong and Suresh Jagannathan
- Abstract要約: 高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been significant recent interest in devising verification
techniques for learning-enabled controllers (LECs) that manage safety-critical
systems. Given the opacity and lack of interpretability of the neural policies
that govern the behavior of such controllers, many existing approaches enforce
safety properties through the use of shields, a dynamic monitoring and repair
mechanism that ensures a LEC does not emit actions that would violate desired
safety conditions. These methods, however, have shown to have significant
scalability limitations because verification costs grow as problem
dimensionality and objective complexity increase. In this paper, we propose a
new automated verification pipeline capable of synthesizing high-quality safety
shields even when the problem domain involves hundreds of dimensions, or when
the desired objective involves stochastic perturbations, liveness
considerations, and other complex non-functional properties. Our key insight
involves separating safety verification from neural controller, using
pre-computed verified safety shields to constrain neural controller training
which does not only focus on safety. Experimental results over a range of
realistic high-dimensional deep RL benchmarks demonstrate the effectiveness of
our approach.
- Abstract(参考訳): 近年,安全クリティカルシステムを管理する学習支援コントローラ(LEC)の検証技術開発への関心が高まっている。
このようなコントローラの動作を管理する神経ポリシーの不透明さと解釈性の欠如を考えると、既存の多くのアプローチはシールド(LECが所望の安全条件に反するアクションを放出しないことを保証する動的監視と修復機構)を使用して安全性を強制する。
しかし、これらの手法は、問題次元と客観的複雑さが増加するにつれて検証コストが増加するため、スケーラビリティに重大な制限があることが示されている。
本稿では,問題領域が数百次元を含む場合や,確率的摂動,生活性考慮,その他の複雑な非機能的特性を対象とする場合にも,高品質な安全シールドを合成できる新しい自動検証パイプラインを提案する。
我々の重要な洞察は、安全検証をニューラルネットワークから分離することであり、安全に焦点をあてるだけでなく、ニューラルネットワークのトレーニングを制約するために、事前に計算済みの安全シールドを使用することである。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
関連論文リスト
- Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Unifying Qualitative and Quantitative Safety Verification of DNN-Controlled Systems [18.049286149364075]
深部強化学習技術の急速な進歩は、ディープニューラルネットワーク(DNN)を利用した安全クリティカルシステムの監視を可能にする
既存の検証アプローチのほとんどは定性的アプローチに依存しており、主に到達可能性分析を利用している。
本稿では,定性的・定量的な安全性検証問題を統一するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-02T09:31:51Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Scaling #DNN-Verification Tools with Efficient Bound Propagation and
Parallel Computing [57.49021927832259]
ディープニューラルネットワーク(DNN)は多くのシナリオで異常な結果を示した強力なツールです。
しかし、それらの複雑な設計と透明性の欠如は、現実世界のアプリケーションに適用する際の安全性上の懸念を提起する。
DNNの形式的検証(FV)は、安全面の証明可能な保証を提供する貴重なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-10T13:51:25Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。
リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。
本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-06T19:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。