論文の概要: Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.01010v1
- Date: Wed, 2 Dec 2020 08:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 14:49:24.868128
- Title: Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using
Reinforcement Learning
- Title(参考訳): 強化学習を用いた自動運転車の運転政策適応安全対策
- Authors: Zhong Cao, Shaobing Xu, Songan Zhang, Huei Peng, Diange Yang
- Abstract要約: 本稿では,衝突回避戦略とアクティベーション機能を含むDPAS設計を提案する。
運転政策適応型アクティベーション機能は、緊急脅威が検出された場合に、現在の運転方針リスクを動的に評価し、起動する必要がある。
実験の結果は自然発生運転データにより校正され, より多くの介入を伴わずに, 衝突速度を著しく低減することを示す。
- 参考スコア(独自算出の注目度): 19.71676985220504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safeguard functions such as those provided by advanced emergency braking
(AEB) can provide another layer of safety for autonomous vehicles (AV). A smart
safeguard function should adapt the activation conditions to the driving
policy, to avoid unnecessary interventions as well as improve vehicle safety.
This paper proposes a driving-policy adaptive safeguard (DPAS) design,
including a collision avoidance strategy and an activation function. The
collision avoidance strategy is designed in a reinforcement learning framework,
obtained by Monte-Carlo Tree Search (MCTS). It can learn from past collisions
and manipulate both braking and steering in stochastic traffics. The
driving-policy adaptive activation function should dynamically assess current
driving policy risk and kick in when an urgent threat is detected. To generate
this activation function, MCTS' exploration and rollout modules are designed to
fully evaluate the AV's current driving policy, and then explore other safer
actions. In this study, the DPAS is validated with two typical highway-driving
policies. The results are obtained through and 90,000 times in the stochastic
and aggressive simulated traffic. The results are calibrated by naturalistic
driving data and show that the proposed safeguard reduces the collision rate
significantly without introducing more interventions, compared with the
state-based benchmark safeguards. In summary, the proposed safeguard leverages
the learning-based method in stochastic and emergent scenarios and imposes
minimal influence on the driving policy.
- Abstract(参考訳): aeb(advanced emergency braking)などのセーフガード機能は、自動運転車(av)に新たな安全層を提供することができる。
スマートセーフガード機能は、運転方針にアクティベーション条件を適応させ、不要な介入を避け、車両の安全性を向上させる。
本稿では,衝突回避戦略とアクティベーション機能を含むdpas(drive-policy adaptive safeguard)設計を提案する。
衝突回避戦略はモンテカルロ木探索(MCTS)で得られた強化学習フレームワークで設計されている。
過去の衝突から学び、確率的な交通の中でブレーキとステアリングの両方を操作できる。
運転-政策適応活性化機能は、現在の運転方針のリスクを動的に評価し、緊急の脅威が検出された場合に起動する。
このアクティベーション関数を生成するために、MCTSの探索およびロールアウトモジュールは、AVの現在の運転ポリシーを十分に評価し、さらに安全な動作を探索するように設計されている。
本研究では、DPASを2つの典型的な高速道路走行ポリシーで検証する。
その結果は確率的および攻撃的なシミュレートトラフィックにおいて90,000回も得られた。
その結果,提案したセーフガードは,州ベースのベンチマークセーフガードと比較して,より多くの介入を伴わずに衝突率を大幅に低減することを示した。
要約して,提案手法は確率的かつ創発的なシナリオにおいて学習に基づく手法を活用し,運転方針に最小限の影響を与える。
関連論文リスト
- A Conflicts-free, Speed-lossless KAN-based Reinforcement Learning Decision System for Interactive Driving in Roundabouts [17.434924472015812]
本稿では,ラウンドアバウンドにおける安全かつ効率的な運転行動を促進するための学習アルゴリズムを提案する。
提案アルゴリズムは、複雑なマルチサイクルラウンドアバウトにおける安全かつ効率的な運転戦略を学習するために、深層Q-ラーニングネットワークを用いる。
その結果,本システムは安定したトレーニングプロセスを維持しつつ,安全かつ効率的な運転を実現することができた。
論文 参考訳(メタデータ) (2024-08-15T16:10:25Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Risk-anticipatory autonomous driving strategies considering vehicles' weights, based on hierarchical deep reinforcement learning [12.014977175887767]
本研究では,周囲の車両の重量を考慮し,リスク予測に基づく自律運転戦略を開発する。
リスクフィールド理論に基づいて、周囲の車両重量を統合するリスクインジケータを提案し、自律運転決定に組み込んだ。
衝突時の潜在的な衝突エネルギーを示す指標を新たに提案し, AV駆動方式の性能評価を行った。
論文 参考訳(メタデータ) (2023-12-27T06:03:34Z) - CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Runtime Stealthy Perception Attacks against DNN-based Adaptive Cruise Control Systems [8.561553195784017]
本稿では,実行時認識攻撃下での深層ニューラルネットワークを用いたACCシステムのセキュリティ評価を行う。
攻撃を誘発する最も重要な時間を選択するための文脈認識戦略を提案する。
提案攻撃の有効性を,実車,公用運転データセット,現実的なシミュレーションプラットフォームを用いて評価した。
論文 参考訳(メタデータ) (2023-07-18T03:12:03Z) - Safe Reinforcement Learning for an Energy-Efficient Driver Assistance
System [1.8899300124593645]
強化学習(Reinforcement Learning, RL)に基づく運転支援システムは, 電力系統制御動作の継続的な改善を通じて, 燃費の向上を図る。
本稿では,RLに基づく運転支援システムによって提案される安全でない動作をフィルタするために,指数制御障壁関数(ECBF)を導出して利用する。
提案手法は, 走行中の衝突を効果的に回避できることを示すため, 車両内での安全RLスキームの訓練と評価を行う。
論文 参考訳(メタデータ) (2023-01-03T00:25:00Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。