論文の概要: Motion Planning for Autonomous Vehicles in the Presence of Uncertainty
Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.00640v1
- Date: Fri, 1 Oct 2021 20:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:08:09.803476
- Title: Motion Planning for Autonomous Vehicles in the Presence of Uncertainty
Using Reinforcement Learning
- Title(参考訳): 強化学習を用いた不確実性を考慮した自律走行車の運動計画
- Authors: Kasra Rezaee, Peyman Yadmellat, Simon Chamorro
- Abstract要約: 不確実性の下での運動計画は、自動運転車の開発における主要な課題の1つである。
最悪の事例を最適化して不確実性を管理するための強化学習に基づくソリューションを提案する。
提案手法は従来のRLアルゴリズムよりもはるかに優れた動作計画行動を示し,人間の運転スタイルと相容れない動作を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion planning under uncertainty is one of the main challenges in developing
autonomous driving vehicles. In this work, we focus on the uncertainty in
sensing and perception, resulted from a limited field of view, occlusions, and
sensing range. This problem is often tackled by considering hypothetical hidden
objects in occluded areas or beyond the sensing range to guarantee passive
safety. However, this may result in conservative planning and expensive
computation, particularly when numerous hypothetical objects need to be
considered. We propose a reinforcement learning (RL) based solution to manage
uncertainty by optimizing for the worst case outcome. This approach is in
contrast to traditional RL, where the agents try to maximize the average
expected reward. The proposed approach is built on top of the Distributional RL
with its policy optimization maximizing the stochastic outcomes' lower bound.
This modification can be applied to a range of RL algorithms. As a
proof-of-concept, the approach is applied to two different RL algorithms, Soft
Actor-Critic and DQN. The approach is evaluated against two challenging
scenarios of pedestrians crossing with occlusion and curved roads with a
limited field of view. The algorithm is trained and evaluated using the SUMO
traffic simulator. The proposed approach yields much better motion planning
behavior compared to conventional RL algorithms and behaves comparably to
humans driving style.
- Abstract(参考訳): 不確実性の下での運動計画は、自動運転車の開発における主要な課題の1つである。
本研究では, 視野, 咬合, 知覚範囲の制限による知覚・知覚の不確実性に注目した。
この問題は、受動的安全性を保証するために、遮蔽領域や感知範囲を超えた仮説上の隠れ物体を考えることでしばしば解決される。
しかし、これは保守的な計画と高価な計算、特に多くの仮説上の対象を考える必要がある場合に生じる。
最悪の事例を最適化して不確実性を管理するための強化学習(RL)に基づくソリューションを提案する。
このアプローチは、エージェントが期待される平均的な報酬を最大化しようとする従来のRLとは対照的である。
提案手法は分布rlの上に構築され,その政策最適化により確率的結果の下限を最大化する。
この修正は、様々なRLアルゴリズムに適用できる。
概念実証として、この手法は2つの異なるRLアルゴリズム、Soft Actor-CriticとDQNに適用される。
このアプローチは、狭視野の閉塞道路と曲がりくねった道路を横断する歩行者の2つの困難なシナリオに対して評価される。
このアルゴリズムはSUMOトラフィックシミュレータを用いて訓練および評価を行う。
提案手法は従来のrlアルゴリズムよりもはるかに優れた動作計画動作を示し,人間の運転スタイルと同等に振る舞う。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Learning-based Preference Prediction for Constrained Multi-Criteria
Path-Planning [12.457788665461312]
自動地上車両(AGV)の制約された経路計画法はそのような適用例である。
我々は、ニューラルネットワークモデルをトレーニングして、オフラインシミュレーションによって得られた知識を活用し、不確実な基準を予測する。
私たちはこのモデルをパスプランナに統合し、オンラインの問題を解決することができます。
論文 参考訳(メタデータ) (2021-08-02T17:13:45Z) - Behavior Planning at Urban Intersections through Hierarchical
Reinforcement Learning [25.50973559614565]
本研究では,都市環境の階層構造を用いた自律走行計画を行うことができる強化学習(RL)に基づく行動計画構造を提案する。
我々のアルゴリズムは、車線封鎖やエゴ車前方の遅延による交差点に近づく際に、車線変更の可能な方向から左に曲がるタイミングや、車線変更の可能性など、規則に基づく決定方法よりも優れている。
また,提案手法は従来のRL法よりも高速に最適方針に収束することを示した。
論文 参考訳(メタデータ) (2020-11-09T19:23:26Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。