論文の概要: Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.10949v1
- Date: Mon, 21 Mar 2022 13:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:40:53.487732
- Title: Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習による高速道路走行の最適化
- Authors: Branka Mirchevska, Moritz Werling, Joschka Boedecker
- Abstract要約: 自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
- 参考スコア(独自算出の注目度): 11.970409518725491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implementing an autonomous vehicle that is able to output feasible, smooth
and efficient trajectories is a long-standing challenge. Several approaches
have been considered, roughly falling under two categories: rule-based and
learning-based approaches. The rule-based approaches, while guaranteeing safety
and feasibility, fall short when it comes to long-term planning and
generalization. The learning-based approaches are able to account for long-term
planning and generalization to unseen situations, but may fail to achieve
smoothness, safety and the feasibility which rule-based approaches ensure.
Hence, combining the two approaches is an evident step towards yielding the
best compromise out of both. We propose a Reinforcement Learning-based
approach, which learns target trajectory parameters for fully autonomous
driving on highways. The trained agent outputs continuous trajectory parameters
based on which a feasible polynomial-based trajectory is generated and
executed. We compare the performance of our agent against four other highway
driving agents. The experiments are conducted in the Sumo simulator, taking
into consideration various realistic, dynamically changing highway scenarios,
including surrounding vehicles with different driver behaviors. We demonstrate
that our offline trained agent, with randomly collected data, learns to drive
smoothly, achieving velocities as close as possible to the desired velocity,
while outperforming the other agents. Code, training data and details available
at: https://nrgit.informatik.uni-freiburg. de/branka.mirchevska/offline-rl-tp.
- Abstract(参考訳): 実現可能で、滑らかで、効率的な軌道を出力できる自動運転車の実装は、長年の課題です。
ルールベースと学習ベースの2つのカテゴリに分類されるいくつかのアプローチが検討されている。
ルールベースのアプローチは、安全性と実現可能性を保証する一方で、長期的な計画と一般化に関しては不十分である。
学習に基づくアプローチは、未認識の状況に対する長期的な計画と一般化を考慮できるが、滑らかさ、安全性、ルールベースのアプローチが保証する実現可能性を達成することができない可能性がある。
したがって、2つのアプローチを組み合わせることは、両者から最良の妥協を得るための明らかなステップである。
高速道路における完全自律走行のための目標軌跡パラメータを学習する強化学習ベースアプローチを提案する。
トレーニングされたエージェントは、実行可能な多項式ベースの軌道を生成し実行するための連続的な軌道パラメータを出力する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
実験は相撲シミュレータで行われ,運転行動の異なる周辺車両を含む,様々な現実的かつ動的に変化する高速道路シナリオを考慮した。
我々のオフライントレーニングエージェントは、ランダムに収集されたデータで、スムーズな運転を学び、所望の速度にできるだけ近い速度で到達し、他のエージェントよりも優れています。
コード、トレーニングデータ、詳細はhttps://nrgit.informatik.uni-freiburg。
de/branka.mirchevska/offline-rl-tp
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Comprehensive Training and Evaluation on Deep Reinforcement Learning for
Automated Driving in Various Simulated Driving Maneuvers [0.4241054493737716]
本研究では、DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装、評価、比較を行う。
設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。
論文 参考訳(メタデータ) (2023-06-20T11:41:01Z) - NeurIPS 2022 Competition: Driving SMARTS [60.948652154552136]
ドライビングSMARTSは、動的相互作用コンテキストにおける分散シフトに起因する問題に対処するために設計された定期的な競争である。
提案するコンペティションは,強化学習(RL)やオフライン学習など,方法論的に多様なソリューションをサポートする。
論文 参考訳(メタデータ) (2022-11-14T17:10:53Z) - Safe Real-World Autonomous Driving by Learning to Predict and Plan with
a Mixture of Experts [3.2230833657560503]
我々は、自動運転車と他の道路エージェントの両方の将来の軌道にまたがる分布について提案する。
推論中は、安全性と予測確率を考慮したコストを最小限に抑える計画軌道を選択する。
都市部の公道上での自動運転車の展開に成功し、快適さを損なうことなく安全に運転できることを確認しました。
論文 参考訳(メタデータ) (2022-11-03T20:16:24Z) - Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments [0.8122270502556374]
GAIL(Generative Adversarial Imitation Learning)は、報酬関数を明示的に定義することなくポリシーを訓練することができる。
両モデルとも,訓練終了後に開始から終了まで,専門家の軌道を模倣できることを示す。
論文 参考訳(メタデータ) (2021-10-16T15:04:13Z) - Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。
本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文 参考訳(メタデータ) (2021-01-18T01:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。