論文の概要: Rethinking Closed-loop Training for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2306.15713v1
- Date: Tue, 27 Jun 2023 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:03:10.933599
- Title: Rethinking Closed-loop Training for Autonomous Driving
- Title(参考訳): 自動運転のためのクローズドループトレーニングの再考
- Authors: Chris Zhang, Runsheng Guo, Wenyuan Zeng, Yuwen Xiong, Binbin Dai, Rui
Hu, Mengye Ren, Raquel Urtasun
- Abstract要約: 本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
- 参考スコア(独自算出の注目度): 82.61418945804544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in high-fidelity simulators have enabled closed-loop training
of autonomous driving agents, potentially solving the distribution shift in
training v.s. deployment and allowing training to be scaled both safely and
cheaply. However, there is a lack of understanding of how to build effective
training benchmarks for closed-loop training. In this work, we present the
first empirical study which analyzes the effects of different training
benchmark designs on the success of learning agents, such as how to design
traffic scenarios and scale training environments. Furthermore, we show that
many popular RL algorithms cannot achieve satisfactory performance in the
context of autonomous driving, as they lack long-term planning and take an
extremely long time to train. To address these issues, we propose trajectory
value learning (TRAVL), an RL-based driving agent that performs planning with
multistep look-ahead and exploits cheaply generated imagined data for efficient
learning. Our experiments show that TRAVL can learn much faster and produce
safer maneuvers compared to all the baselines. For more information, visit the
project website: https://waabi.ai/research/travl
- Abstract(参考訳): 近年の高忠実度シミュレータの進歩により、自動運転エージェントのクローズドループトレーニングが可能となり、トレーニングv.s.配備の分散シフトを解決し、安全かつ安価にトレーニングをスケールできる。
しかし、クローズドループトレーニングの効果的なトレーニングベンチマークを構築する方法についての理解が不足している。
本研究では,交通シナリオの設計方法や学習環境のスケールなど,異なるトレーニングベンチマーク設計が学習エージェントの成功に与える影響を解析した最初の実証的研究を示す。
さらに、多くのRLアルゴリズムは、長期計画が欠如し、訓練に非常に長い時間を要するため、自律運転の文脈では満足できる性能を達成できないことを示す。
これらの課題に対処するために,複数ステップのルックアヘッドで計画を実行し,低コストで生成した仮想データを利用して効率的な学習を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
詳細はプロジェクトのwebサイト(https://waabi.ai/research/travl)を参照。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills [37.31853034449015]
本稿では、長距離車両計画の課題を克服するために、オフラインRLを強化するスキルベースのフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
一般的なVAEの後方崩壊を緩和するため、2分岐シーケンスエンコーダを導入し、離散的なオプションと複雑な駆動スキルの連続的な変化をキャプチャする。
論文 参考訳(メタデータ) (2023-09-24T11:51:17Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文 参考訳(メタデータ) (2022-03-21T13:13:08Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments [0.8122270502556374]
GAIL(Generative Adversarial Imitation Learning)は、報酬関数を明示的に定義することなくポリシーを訓練することができる。
両モデルとも,訓練終了後に開始から終了まで,専門家の軌道を模倣できることを示す。
論文 参考訳(メタデータ) (2021-10-16T15:04:13Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。