論文の概要: Verified Safe Reinforcement Learning for Neural Network Dynamic Models
- arxiv url: http://arxiv.org/abs/2405.15994v2
- Date: Sat, 16 Nov 2024 04:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:39.858167
- Title: Verified Safe Reinforcement Learning for Neural Network Dynamic Models
- Title(参考訳): ニューラルネットワークの動的モデルに対する安全な強化学習の検証
- Authors: Junlin Wu, Huan Zhang, Yevgeniy Vorobeychik,
- Abstract要約: 本稿では,非線形神経力学系における安全な制御ポリシーを学習するための新しいアプローチを提案する。
提案手法は,有限水平到達性という意味での安全性の実現を目的としている。
5つの安全な制御問題に関する実験は、我々の訓練されたコントローラーが、最先端のベースラインよりも桁違いに長い水平線上で検証された安全性を達成できることを実証している。
- 参考スコア(独自算出の注目度): 31.245563229976145
- License:
- Abstract: Learning reliably safe autonomous control is one of the core problems in trustworthy autonomy. However, training a controller that can be formally verified to be safe remains a major challenge. We introduce a novel approach for learning verified safe control policies in nonlinear neural dynamical systems while maximizing overall performance. Our approach aims to achieve safety in the sense of finite-horizon reachability proofs, and is comprised of three key parts. The first is a novel curriculum learning scheme that iteratively increases the verified safe horizon. The second leverages the iterative nature of gradient-based learning to leverage incremental verification, reusing information from prior verification runs. Finally, we learn multiple verified initial-state-dependent controllers, an idea that is especially valuable for more complex domains where learning a single universal verified safe controller is extremely challenging. Our experiments on five safe control problems demonstrate that our trained controllers can achieve verified safety over horizons that are as much as an order of magnitude longer than state-of-the-art baselines, while maintaining high reward, as well as a perfect safety record over entire episodes. Our code is available at https://github.com/jlwu002/VSRL.
- Abstract(参考訳): 安全な自律制御を確実に学習することは、信頼できる自律性における中核的な問題の1つだ。
しかし、公式に安全であると証明できるコントローラーをトレーニングすることは、依然として大きな課題である。
本稿では,非線形神経力学系における安全な制御ポリシーを学習し,性能を最大化するための新しいアプローチを提案する。
提案手法は,有限水平到達可能性証明の意味での安全性の実現を目的としており,三つの重要な部分から構成されている。
1つ目は、検証された安全な地平線を反復的に増加させる新しいカリキュラム学習方式である。
2つ目は、勾配に基づく学習の反復的な性質を活用して、インクリメンタルな検証を活用し、事前の検証実行からの情報を再利用する。
最後に、複数の検証済み初期状態依存コントローラを学習する。これは、単一の普遍的検証安全コントローラを学習することが極めて困難である、より複雑なドメインにとって特に価値のあるアイデアである。
5つの安全な制御問題に関する実験により、我々の訓練されたコントローラーは、最先端のベースラインよりも桁違い長い地平線上で、高い報酬を維持しつつ、全エピソードの完全な安全記録を達成できることが実証された。
私たちのコードはhttps://github.com/jlwu002/VSRLで公開されています。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates [45.72598064481916]
本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。
制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
論文 参考訳(メタデータ) (2023-11-03T14:23:57Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-20T19:30:29Z) - Weakly Supervised Reinforcement Learning for Autonomous Highway Driving
via Virtual Safety Cages [42.57240271305088]
規則に基づく安全ケージは、車両の安全性の向上と強化学習エージェントに対する弱い監督を提供する自律型車両の縦方向制御に対する強化学習ベースのアプローチを提示する。
モデルパラメータが制約されたり,あるいは最適化されていない場合,モデルが強化学習だけでは運転を訓練できない場合でも,モデルが安全な運転方針を学習できることを示す。
論文 参考訳(メタデータ) (2021-03-17T15:30:36Z) - Towards Safe Continuing Task Reinforcement Learning [21.390201009230246]
再起動を必要とせずに継続するタスク設定で動作可能なアルゴリズムを提案する。
本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。
論文 参考訳(メタデータ) (2021-02-24T22:12:25Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。