論文の概要: Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.04752v1
- Date: Mon, 9 Nov 2020 20:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:52:51.792758
- Title: Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning
- Title(参考訳): 階層型強化学習による自動運転車の軌道計画
- Authors: Kaleb Ben Naveed, Zhiqian Qiao and John M. Dolan
- Abstract要約: 不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
- 参考スコア(独自算出の注目度): 21.500697097095408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning safe trajectories under uncertain and dynamic conditions makes the
autonomous driving problem significantly complex. Current sampling-based
methods such as Rapidly Exploring Random Trees (RRTs) are not ideal for this
problem because of the high computational cost. Supervised learning methods
such as Imitation Learning lack generalization and safety guarantees. To
address these problems and in order to ensure a robust framework, we propose a
Hierarchical Reinforcement Learning (HRL) structure combined with a
Proportional-Integral-Derivative (PID) controller for trajectory planning. HRL
helps divide the task of autonomous vehicle driving into sub-goals and supports
the network to learn policies for both high-level options and low-level
trajectory planner choices. The introduction of sub-goals decreases convergence
time and enables the policies learned to be reused for other scenarios. In
addition, the proposed planner is made robust by guaranteeing smooth
trajectories and by handling the noisy perception system of the ego-car. The
PID controller is used for tracking the waypoints, which ensures smooth
trajectories and reduces jerk. The problem of incomplete observations is
handled by using a Long-Short-Term-Memory (LSTM) layer in the network. Results
from the high-fidelity CARLA simulator indicate that the proposed method
reduces convergence time, generates smoother trajectories, and is able to
handle dynamic surroundings and noisy observations.
- Abstract(参考訳): 不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には適していない。
模倣学習のような教師付き学習方法は一般化や安全性の保証が欠如している。
これらの問題に対処し,ロバストな枠組みを確保するため,軌道計画のための階層的強化学習(hrl)構造と比例積分型導出型(pid)コントローラを提案する。
HRLは、自動運転のタスクをサブゴールに分割し、高レベルのオプションと低レベルのトラジェクティブプランナーの選択のポリシーを学ぶためのネットワークをサポートする。
サブゴールの導入は収束時間を短縮し、学習したポリシーを他のシナリオで再利用できるようにする。
さらに、スムーズな軌跡を保証し、エゴカーの騒音知覚システムを扱うことにより、提案したプランナを堅牢化する。
PIDコントローラはウェイポイントを追跡するのに使われ、スムーズな軌跡を確保できる。
不完全な観測の問題は、ネットワーク内のLong-Short-Term-Memory (LSTM)層を用いて処理される。
高忠実度carlaシミュレータによる結果は,提案手法が収束時間を短縮し,より滑らかな軌道を生成し,動的環境や騒音観測を処理できることを示す。
関連論文リスト
- ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - Residual Chain Prediction for Autonomous Driving Path Planning [5.139918355140954]
残留連鎖損失は損失計算過程を動的に調整し、予測経路点の時間依存性と精度を高める。
我々の研究は、自動運転車の計画コンポーネントに革命をもたらすために、Residual Chain Lossの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-04-08T11:43:40Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing [0.0]
本稿では、自動運転車における強化学習(RL)ソリューションの性能向上の問題に対処する。
計画タスクと制御タスクを分離する部分的なエンドツーエンドアルゴリズムを提案する。
従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。
論文 参考訳(メタデータ) (2023-12-11T14:27:10Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Imitation Learning for Robust and Safe Real-time Motion Planning: A
Contraction Theory Approach [9.35511513240868]
LAG-ROSは、境界外乱によって乱される安全臨界非線形システムのリアルタイムロバストな動作計画アルゴリズムである。
LAG-ROSはリアルタイム計算のためのより速い実行の速度のより高い制御性能そしてタスクの成功率を達成します。
論文 参考訳(メタデータ) (2021-02-25T03:47:15Z) - A Safe Hierarchical Planning Framework for Complex Driving Scenarios
based on Reinforcement Learning [23.007323699176467]
低レベルコントローラのコーディネーターとして,低レベルセーフコントローラセットと高レベル強化学習アルゴリズム(H-CtRL)を用いた階層的行動計画フレームワークを提案する。
低レベルの最適化/サンプリングベースのコントローラによって安全性が保証され、高レベルの強化学習アルゴリズムはH-CtRLを適応的で効率的な行動プランナにする。
提案したH-CtRLは,安全性と効率の両面で性能を満足して,様々な現実的なシミュレーションシナリオにおいて有効であることが証明された。
論文 参考訳(メタデータ) (2021-01-17T20:45:42Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Learning to Track Dynamic Targets in Partially Known Environments [48.49957897251128]
我々は、アクティブな目標追跡を解決するために、深層強化学習アプローチを用いる。
特に,アクティブ・トラッカー・ターゲティング・ネットワーク(ATTN)を導入し,アクティブ・ターゲティング・ターゲティングの主要なタスクを解決するための統一的なRLポリシーを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:45:24Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。