論文の概要: Amortized Q-learning with Model-based Action Proposals for Autonomous
Driving on Highways
- arxiv url: http://arxiv.org/abs/2012.03234v1
- Date: Sun, 6 Dec 2020 11:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:53:27.886415
- Title: Amortized Q-learning with Model-based Action Proposals for Autonomous
Driving on Highways
- Title(参考訳): amortized q-learning with model-based action proposals for autonomous driving on highways
- Authors: Branka Mirchevska, Maria H\"ugle, Gabriel Kalweit, Moritz Werling,
Joschka Boedecker
- Abstract要約: トラジェクティブプランナーと組み合わせて、最適な長期運転戦略を学習する強化学習に基づくアプローチを導入する。
局所最適操作をアクションとしてオンラインに生成することにより、無限の低レベル連続アクション空間と、予め定義された標準レーン変更アクションの固定数の限られた柔軟性のバランスをとることができる。
- 参考スコア(独自算出の注目度): 10.687104237121408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Well-established optimization-based methods can guarantee an optimal
trajectory for a short optimization horizon, typically no longer than a few
seconds. As a result, choosing the optimal trajectory for this short horizon
may still result in a sub-optimal long-term solution. At the same time, the
resulting short-term trajectories allow for effective, comfortable and provable
safe maneuvers in a dynamic traffic environment. In this work, we address the
question of how to ensure an optimal long-term driving strategy, while keeping
the benefits of classical trajectory planning. We introduce a Reinforcement
Learning based approach that coupled with a trajectory planner, learns an
optimal long-term decision-making strategy for driving on highways. By online
generating locally optimal maneuvers as actions, we balance between the
infinite low-level continuous action space, and the limited flexibility of a
fixed number of predefined standard lane-change actions. We evaluated our
method on realistic scenarios in the open-source traffic simulator SUMO and
were able to achieve better performance than the 4 benchmark approaches we
compared against, including a random action selecting agent, greedy agent,
high-level, discrete actions agent and an IDM-based SUMO-controlled agent.
- Abstract(参考訳): 十分に確立された最適化に基づく手法は、通常は数秒以内の短い最適化地平線に対する最適軌道を保証することができる。
結果として、この短地平線に対する最適軌道の選択は、依然として準最適長期解をもたらす可能性がある。
同時に、結果として生じる短期的軌道は、動的な交通環境において効果的で快適で証明可能な安全な操作を可能にする。
本研究では,従来の軌道計画の利点を保ちつつ,長期運転戦略の最適性を確保する方法について考察する。
軌道プランナーと組み合わさった強化学習に基づくアプローチを導入し,高速道路での運転に最適な長期意思決定戦略を学習する。
局所最適操作をアクションとしてオンラインに生成することにより、無限の低レベル連続アクション空間と、予め定義された標準レーン変更アクションの固定数の限られた柔軟性のバランスをとることができる。
提案手法を,オープンソースの交通シミュレータSUMOの現実シナリオで評価し,ランダムな行動選択エージェント,グリードエージェント,ハイレベルな離散アクションエージェント,IMMベースのSUMO制御エージェントなど,比較した4つのベンチマーク手法よりも優れた性能を実現した。
関連論文リスト
- Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文 参考訳(メタデータ) (2022-03-21T13:13:08Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - An End-to-end Deep Reinforcement Learning Approach for the Long-term
Short-term Planning on the Frenet Space [0.0]
本稿では,自動運転車の意思決定と動作計画に向けた,エンドツーエンドの継続的強化学習手法を提案する。
初めて、Frenet空間上の状態と行動空間の両方を定義して、走行挙動を道路曲率に変化させないようにする。
このアルゴリズムは、フィードバックコントローラが追跡するFrenetフレーム上で連続時間軌道を生成する。
論文 参考訳(メタデータ) (2020-11-26T02:40:07Z) - Path Planning Followed by Kinodynamic Smoothing for Multirotor Aerial
Vehicles (MAVs) [61.94975011711275]
そこで本稿では,RRT*textquotedblrightのテキストを幾何学的にベースとした動き計画手法を提案する。
提案手法では,適応探索空間とステアリング機能を導入したオリジナルのRT*を改良した。
提案手法を様々なシミュレーション環境で検証した。
論文 参考訳(メタデータ) (2020-08-29T09:55:49Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - The Importance of Prior Knowledge in Precise Multimodal Prediction [71.74884391209955]
道路にはよく定義された地形、地形、交通規則がある。
本稿では,構造的事前を損失関数として組み込むことを提案する。
実世界の自動運転データセットにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-04T03:56:11Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。