論文の概要: Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.04288v1
- Date: Fri, 6 Oct 2023 14:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 15:55:58.288394
- Title: Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning
- Title(参考訳): 到達性と強化学習による最適実行時保証の探索
- Authors: Kristina Miller, Christopher K. Zeitler, William Shen, Kerianne Hobbs,
Sayan Mitra, John Schierman, Mahesh Viswanathan
- Abstract要約: あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。
既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.422636931175853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A runtime assurance system (RTA) for a given plant enables the exercise of an
untrusted or experimental controller while assuring safety with a backup (or
safety) controller. The relevant computational design problem is to create a
logic that assures safety by switching to the safety controller as needed,
while maximizing some performance criteria, such as the utilization of the
untrusted controller. Existing RTA design strategies are well-known to be
overly conservative and, in principle, can lead to safety violations. In this
paper, we formulate the optimal RTA design problem and present a new approach
for solving it. Our approach relies on reward shaping and reinforcement
learning. It can guarantee safety and leverage machine learning technologies
for scalability. We have implemented this algorithm and present experimental
results comparing our approach with state-of-the-art reachability and
simulation-based RTA approaches in a number of scenarios using aircraft models
in 3D space with complex safety requirements. Our approach can guarantee safety
while increasing utilization of the experimental controller over existing
approaches.
- Abstract(参考訳): プラントのランタイム保証システム(RTA)は、バックアップ(または安全)コントローラで安全性を確保しつつ、信頼できないまたは実験的なコントローラの運動を可能にする。
関連する計算設計問題は、信頼できないコントローラの利用などのパフォーマンス基準を最大化しながら、必要に応じて安全コントローラに切り替えることによる安全性を保証するロジックを作成することである。
既存のRTA設計戦略は、過度に保守的であることが知られており、原則として安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
我々のアプローチは報酬形成と強化学習に依存している。
安全性を保証し、スケーラビリティのために機械学習技術を活用することができる。
このアルゴリズムを実装し, 複雑な安全条件を持つ3次元空間における航空機モデルを用いて, 現状の到達可能性とシミュレーションに基づくRTAアプローチとの比較実験を行った。
提案手法は,既存のアプローチよりも実験用コントローラの利用率を高めつつ,安全性を保証する。
関連論文リスト
- Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。