論文の概要: Runtime Safety Assurance Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.10618v1
- Date: Tue, 20 Oct 2020 20:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:37:04.596144
- Title: Runtime Safety Assurance Using Reinforcement Learning
- Title(参考訳): 強化学習を用いたランタイム安全性保証
- Authors: Christopher Lazarus, James G. Lopez, Mykel J. Kochenderfer
- Abstract要約: 本稿では,安全でない状況を高精度に識別できるメタコントローラを設計することを目的とする。
我々は,RTSAの設計をマルコフ決定プロセス(MDP)と組み合わせ,強化学習(RL)を用いて解決する。
- 参考スコア(独自算出の注目度): 37.61747231296097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The airworthiness and safety of a non-pedigreed autopilot must be verified,
but the cost to formally do so can be prohibitive. We can bypass formal
verification of non-pedigreed components by incorporating Runtime Safety
Assurance (RTSA) as mechanism to ensure safety. RTSA consists of a
meta-controller that observes the inputs and outputs of a non-pedigreed
component and verifies formally specified behavior as the system operates. When
the system is triggered, a verified recovery controller is deployed. Recovery
controllers are designed to be safe but very likely disruptive to the
operational objective of the system, and thus RTSA systems must balance safety
and efficiency. The objective of this paper is to design a meta-controller
capable of identifying unsafe situations with high accuracy. High dimensional
and non-linear dynamics in which modern controllers are deployed along with the
black-box nature of the nominal controllers make this a difficult problem.
Current approaches rely heavily on domain expertise and human engineering. We
frame the design of RTSA with the Markov decision process (MDP) framework and
use reinforcement learning (RL) to solve it. Our learned meta-controller
consistently exhibits superior performance in our experiments compared to our
baseline, human engineered approach.
- Abstract(参考訳): 非ペディグレードオートパイロットの耐空性と安全性を検証しなければならないが、公式に実施するコストは禁じることができる。
安全確保機構としてRTSA(Runtime Safety Assurance)を組み込むことで,非ペジグリーコンポーネントの形式的検証を回避できる。
RTSAは、非ペジグリードコンポーネントの入力と出力を観察し、システムが動作するときに公式に指定された動作を検証するメタコントローラで構成される。
システムが起動されると、検証されたリカバリコントローラがデプロイされる。
回収制御装置は安全であるがシステムの運用上の目的に対して非常に破壊的であり、RTSAシステムは安全性と効率のバランスをとる必要がある。
本研究の目的は,安全でない状況を高精度に識別できるメタコントローラを設計することである。
現代のコントローラが名目コントローラのブラックボックスの性質に沿って配置される高次元および非線形ダイナミクスは、この問題を難しくしている。
現在のアプローチはドメインの専門知識とヒューマンエンジニアリングに大きく依存しています。
我々はrtsaの設計をマルコフ決定プロセス(mdp)フレームワークで構成し,それを解決するために強化学習(rl)を使用する。
私たちの学習したメタコントローラは、ベースラインの人間工学的アプローチと比較して、実験において常に優れたパフォーマンスを示しています。
関連論文リスト
- Transfer of Safety Controllers Through Learning Deep Inverse Dynamics Model [4.7962647777554634]
制御障壁証明書は、制御システムの安全性を正式に保証する上で有効であることが証明されている。
制御障壁証明書の設計は、時間がかかり、計算に費用がかかる作業である。
本稿では,制御器の正当性を保証する妥当性条件を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:28:43Z) - Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning [2.422636931175853]
あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。
既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T14:45:57Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - An Empirical Analysis of the Use of Real-Time Reachability for the
Safety Assurance of Autonomous Vehicles [7.1169864450668845]
本稿では,1/10スケールのオープンソース自動運転車プラットフォームの安全性を確保するために,シンプルなアーキテクチャの実装にリアルタイムリーチビリティアルゴリズムを提案する。
提案手法では,システムの将来状態に対するコントローラの判断の影響に着目して,基盤となるコントローラを解析する必要性を抽象化する。
論文 参考訳(メタデータ) (2022-05-03T11:12:29Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-20T19:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。