論文の概要: Safety-aware Policy Optimisation for Autonomous Racing
- arxiv url: http://arxiv.org/abs/2110.07699v1
- Date: Thu, 14 Oct 2021 20:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:17:58.062397
- Title: Safety-aware Policy Optimisation for Autonomous Racing
- Title(参考訳): 自律走行における安全対応政策最適化
- Authors: Bingqing Chen, Jonathan Francis, James Herman, Jean Oh, Eric Nyberg,
Sylvia L. Herbert
- Abstract要約: ハミルトン・ヤコビ(HJ)到達可能性理論を制約付きマルコフ決定過程(CMDP)フレームワークに導入する。
我々は,HJの安全性を視覚的文脈で直接学習できることを実証した。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race (L2R)など、いくつかのベンチマークタスクにおいて、本手法の評価を行った。
- 参考スコア(独自算出の注目度): 17.10371721305536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To be viable for safety-critical applications, such as autonomous driving and
assistive robotics, autonomous agents should adhere to safety constraints
throughout the interactions with their environments. Instead of learning about
safety by collecting samples, including unsafe ones, methods such as
Hamilton-Jacobi (HJ) reachability compute safe sets with theoretical guarantees
using models of the system dynamics. However, HJ reachability is not scalable
to high-dimensional systems, and the guarantees hinge on the quality of the
model. In this work, we inject HJ reachability theory into the constrained
Markov decision process (CMDP) framework, as a control-theoretical approach for
safety analysis via model-free updates on state-action pairs. Furthermore, we
demonstrate that the HJ safety value can be learned directly on vision context,
the highest-dimensional problem studied via the method to-date. We evaluate our
method on several benchmark tasks, including Safety Gym and Learn-to-Race
(L2R), a recently-released high-fidelity autonomous racing environment. Our
approach has significantly fewer constraint violations in comparison to other
constrained RL baselines, and achieve the new state-of-the-art results on the
L2R benchmark task.
- Abstract(参考訳): 自律運転や補助ロボティクスのような安全クリティカルな応用のためには、自律エージェントは環境との相互作用を通じて安全性の制約に従わなければならない。
非安全性を含むサンプルを収集することで安全性を学ぶ代わりに、hamilton-jacobi (hj) のような手法は、システムダイナミクスのモデルを使って理論的に保証された安全なセットを計算する。
しかし、HJの到達性は高次元システムには拡張性がなく、モデルの品質が保証される。
本研究では,制約付きマルコフ決定過程(CMDP)にHJ到達可能性理論を注入し,状態-作用ペアのモデルフリー更新による安全性解析の制御理論的アプローチを提案する。
さらに,HJ安全性の値は,これまで研究されてきた高次元問題である視覚コンテキストに基づいて直接学習可能であることを示す。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race(L2R)など、いくつかのベンチマークタスクについて評価を行った。
提案手法は、他の制約付きRLベースラインと比較して制約違反を著しく少なくし、L2Rベンチマークタスクにおける新しい最先端結果を達成する。
関連論文リスト
- A novel agent with formal goal-reaching guarantees: an experimental study with a mobile robot [0.0]
強化学習 (Reinforcement Learning, RL) は, ロボット工学における多くの課題に対して有効かつ便利であることが示されている。
この研究は、Crytic As Lyapunov Function(CALF)と呼ばれる新しい安全なモデルフリーRLエージェントを提示する。
論文 参考訳(メタデータ) (2024-09-23T10:04:28Z) - Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving [3.5293763645151404]
そこで本稿では,二段階最適化を用いたスタックルバーグモデルに基づく安全なMARL法を提案する。
Constrained Stackelberg Q-learning (CSQ) と Constrained Stackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG) の2つの実用的なアルゴリズムを開発した。
CSQ と CS-MADDPG のアルゴリズムは,Bi-AC,MACPO,MAPPO-L などの強力な MARL ベースラインよりも,報酬と安全性の面で優れていた。
論文 参考訳(メタデータ) (2024-05-28T14:15:18Z) - Searching for Optimal Runtime Assurance via Reachability and
Reinforcement Learning [2.422636931175853]
あるプラントのランタイム保証システム(RTA)は、バックアップコントローラで安全性を確保しながら、信頼できないまたは実験的なコントローラの運動を可能にする。
既存のRTA設計戦略は、過度に保守的であることで知られており、原則として、安全違反につながる可能性がある。
本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T14:45:57Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。