論文の概要: RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes
- arxiv url: http://arxiv.org/abs/2405.04714v1
- Date: Tue, 7 May 2024 23:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:45:06.949997
- Title: RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes
- Title(参考訳): RACER:低クレーシュで高速走行を可能にするてんかん性リスク感作型RL
- Authors: Kyle Stachowicz, Sergey Levine,
- Abstract要約: 本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 57.319845580050924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning provides an appealing framework for robotic control due to its ability to learn expressive policies purely through real-world interaction. However, this requires addressing real-world constraints and avoiding catastrophic failures during training, which might severely impede both learning progress and the performance of the final policy. In many robotics settings, this amounts to avoiding certain "unsafe" states. The high-speed off-road driving task represents a particularly challenging instantiation of this problem: a high-return policy should drive as aggressively and as quickly as possible, which often requires getting close to the edge of the set of "safe" states, and therefore places a particular burden on the method to avoid frequent failures. To both learn highly performant policies and avoid excessive failures, we propose a reinforcement learning framework that combines risk-sensitive control with an adaptive action space curriculum. Furthermore, we show that our risk-sensitive objective automatically avoids out-of-distribution states when equipped with an estimator for epistemic uncertainty. We implement our algorithm on a small-scale rally car and show that it is capable of learning high-speed policies for a real-world off-road driving task. We show that our method greatly reduces the number of safety violations during the training process, and actually leads to higher-performance policies in both driving and non-driving simulation environments with similar challenges.
- Abstract(参考訳): 強化学習は、実世界の相互作用を通じて純粋に表現力のあるポリシーを学習する能力のために、ロボット制御のための魅力的なフレームワークを提供する。
しかし、これは現実世界の制約に対処し、トレーニング中に破滅的な失敗を避ける必要がある。
多くのロボティクス設定では、これは特定の「安全でない」状態を避けるためである。
高速オフロード運転タスクは、この問題の特に困難なインスタンス化である: ハイリターンポリシーは、可能な限り迅速かつ積極的に運転すべきであり、しばしば「安全な」状態のセットの端に近づく必要がある。
高い性能のポリシーを学習し、過度な失敗を避けるために、リスク感受性制御と適応的な行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
さらに, 疫学的不確実性評価装置を装着した場合, リスク感応性の対象は, アウト・オブ・ディストリビューション状態を自動的に回避できることが示唆された。
我々は,小型のラリーカーにアルゴリズムを実装し,現実世界のオフロード走行タスクに対して,高速なポリシーを学習可能であることを示す。
本手法はトレーニング過程における安全性違反の回数を大幅に減らし,運転環境と非運転環境の双方において,同様の課題を生んでいる。
関連論文リスト
- CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving [11.072917563013428]
強化学習 (Reinforcement Learning, RL) は意思決定や制御作業に広く用いられているが, 訓練プロセスにおけるエージェントのリスクは非常に高い。
本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。
提案手法は, 連続状態および動作タスクにおいて高い安全性を達成し, 長距離意思決定タスクにおいて高い探索性能を示す。
論文 参考訳(メタデータ) (2024-03-27T02:41:52Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving [41.54021613421446]
事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-01T01:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。