論文の概要: SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2206.08528v1
- Date: Fri, 17 Jun 2022 03:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 03:53:26.383095
- Title: SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving
- Title(参考訳): safel-kit: 安全自動運転のための効率的な強化学習方法の評価
- Authors: Linrui Zhang, Qin Zhang, Li Shen, Bo Yuan, Xueqian Wang
- Abstract要約: 我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
- 参考スコア(独自算出の注目度): 12.925039760573092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (RL) has achieved significant success on
risk-sensitive tasks and shown promise in autonomous driving (AD) as well.
Considering the distinctiveness of this community, efficient and reproducible
baselines are still lacking for safe AD. In this paper, we release SafeRL-Kit
to benchmark safe RL methods for AD-oriented tasks. Concretely, SafeRL-Kit
contains several latest algorithms specific to zero-constraint-violation tasks,
including Safety Layer, Recovery RL, off-policy Lagrangian method, and Feasible
Actor-Critic. In addition to existing approaches, we propose a novel
first-order method named Exact Penalty Optimization (EPO) and sufficiently
demonstrate its capability in safe AD. All algorithms in SafeRL-Kit are
implemented (i) under the off-policy setting, which improves sample efficiency
and can better leverage past logs; (ii) with a unified learning framework,
providing off-the-shelf interfaces for researchers to incorporate their
domain-specific knowledge into fundamental safe RL methods. Conclusively, we
conduct a comparative evaluation of the above algorithms in SafeRL-Kit and shed
light on their efficacy for safe autonomous driving. The source code is
available at \href{ https://github.com/zlr20/saferl_kit}{this https URL}.
- Abstract(参考訳): 安全強化学習(RL)は、リスクに敏感なタスクにおいて大きな成功を収め、自律運転(AD)においても有望であることを示す。
このコミュニティの特異性を考えると、効率的で再現可能なベースラインはまだ安全なADに欠けています。
本稿では,AD指向タスクの安全なRLメソッドをベンチマークするSafeRL-Kitをリリースする。
具体的には、SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、ファシブル・アクター・クリティカルなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
既存の手法に加えて,Exact Penalty Optimization (EPO) と呼ばれる新しい一階法を提案し,その安全性を十分に実証する。
SafeRL-Kitのアルゴリズムはすべて実装されている
i) サンプル効率を改善し、過去のログをよりよく活用できる、オフ・ポリティシ・セッティングの下で
(i) 統合学習フレームワークにより、研究者がドメイン固有の知識を基本的な安全なRL手法に組み込むための既製のインタフェースを提供する。
結論として,これらのアルゴリズムをsafenel-kitで比較評価し,安全な自動運転に対する有効性について考察した。
ソースコードは \href{ https://github.com/zlr20/saferl_kit}{this https url} で入手できる。
関連論文リスト
- Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Self-Improving Safety Performance of Reinforcement Learning Based
Driving with Black-Box Verification Algorithms [0.0]
本稿では,強化学習(RL)に基づく自律運転(AD)エージェントの安全性向上を目的とした,自己改善型人工知能システムを提案する。
提案手法は,RLベースの適応クルーズ制御(ACC)アプリケーションにおいて,行動決定の安全性上の障害を効果的に発見する。
論文 参考訳(メタデータ) (2022-10-29T11:34:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。