論文の概要: Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments
- arxiv url: http://arxiv.org/abs/2110.08586v1
- Date: Sat, 16 Oct 2021 15:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:31:48.221808
- Title: Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments
- Title(参考訳): 都市環境におけるエンド・ツー・エンド自動運転のための生成的逆模倣学習
- Authors: Gustavo Claudio Karl Couto and Eric Aislan Antonelo
- Abstract要約: GAIL(Generative Adversarial Imitation Learning)は、報酬関数を明示的に定義することなくポリシーを訓練することができる。
両モデルとも,訓練終了後に開始から終了まで,専門家の軌道を模倣できることを示す。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving is a complex task, which has been tackled since the first
self-driving car ALVINN in 1989, with a supervised learning approach, or
behavioral cloning (BC). In BC, a neural network is trained with state-action
pairs that constitute the training set made by an expert, i.e., a human driver.
However, this type of imitation learning does not take into account the
temporal dependencies that might exist between actions taken in different
moments of a navigation trajectory. These type of tasks are better handled by
reinforcement learning (RL) algorithms, which need to define a reward function.
On the other hand, more recent approaches to imitation learning, such as
Generative Adversarial Imitation Learning (GAIL), can train policies without
explicitly requiring to define a reward function, allowing an agent to learn by
trial and error directly on a training set of expert trajectories. In this
work, we propose two variations of GAIL for autonomous navigation of a vehicle
in the realistic CARLA simulation environment for urban scenarios. Both of them
use the same network architecture, which process high dimensional image input
from three frontal cameras, and other nine continuous inputs representing the
velocity, the next point from the sparse trajectory and a high-level driving
command. We show that both of them are capable of imitating the expert
trajectory from start to end after training ends, but the GAIL loss function
that is augmented with BC outperforms the former in terms of convergence time
and training stability.
- Abstract(参考訳): 自律運転は複雑な作業であり、1989年に最初の自動運転車ALVINNから、教師付き学習アプローチや行動クローン(BC)によって取り組まれている。
BCでは、ニューラルネットワークは、専門家、すなわち人間のドライバーによるトレーニングセットを構成する状態-作用ペアで訓練される。
しかし、このような模倣学習は、ナビゲーション軌跡の異なる瞬間に取られる行動の間に生じる時間的依存関係を考慮してはいない。
これらのタスクは、報酬関数を定義する必要がある強化学習(RL)アルゴリズムによってよりうまく処理される。
一方,gail(generative adversarial imitation learning)のような模倣学習に対する近年のアプローチでは,報酬関数を明示的に定義することなくポリシをトレーニングすることが可能であり,エージェントは専門家の訓練セット上で,試行錯誤によって学習することができる。
本研究では,都市シナリオの現実的カルラシミュレーション環境における車両の自律走行のためのガイルの2つのバリエーションを提案する。
どちらも同じネットワークアーキテクチャを使用し、3つの前面カメラからの高次元画像入力と、その速度を表す9つの連続的な入力、スパース軌道からの次の点と高レベルの駆動指令を処理する。
両モデルとも, 訓練終了後の開始から終了まで, 専門家の軌道を模倣できることを示したが, BCで強化したGAIL損失関数は, 収束時間や訓練安定性の点で, 前者よりも優れていた。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills [37.31853034449015]
本稿では、長距離車両計画の課題を克服するために、オフラインRLを強化するスキルベースのフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
一般的なVAEの後方崩壊を緩和するため、2分岐シーケンスエンコーダを導入し、離散的なオプションと複雑な駆動スキルの連続的な変化をキャプチャする。
論文 参考訳(メタデータ) (2023-09-24T11:51:17Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments [1.6267479602370543]
Generative Adversarial Learning (RL)アプローチは、エンジニアリングされた報酬のみに基づいています。
RLタスクの生画像から直接のディープ・ネットワークは不安定でトラブルが多いことが知られている。
本研究は、車両の自律ナビゲーションを解決するために、運転タスクから表現学習を分離する階層型GAILアーキテクチャ(hGAIL)を提案する。
論文 参考訳(メタデータ) (2023-02-09T18:21:29Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文 参考訳(メタデータ) (2022-03-21T13:13:08Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Intelligent Roundabout Insertion using Deep Reinforcement Learning [68.8204255655161]
本稿では,多忙なラウンドアバウンドの入場を交渉できる演習計画モジュールを提案する。
提案されたモジュールは、トレーニングされたニューラルネットワークに基づいて、操作の全期間にわたって、ラウンドアバウンドに入るタイミングと方法を予測する。
論文 参考訳(メタデータ) (2020-01-03T11:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。