論文の概要: End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation
- arxiv url: http://arxiv.org/abs/2406.17680v1
- Date: Tue, 25 Jun 2024 16:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:41:09.732293
- Title: End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation
- Title(参考訳): 費用対効果のないエンドツーエンド自動運転と3次元手動アノテーション
- Authors: Mingzhe Guo, Zhipeng Zhang, Yuan He, Ke Wang, Liping Jing,
- Abstract要約: 視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
- 参考スコア(独自算出の注目度): 34.070813293944944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose UAD, a method for vision-based end-to-end autonomous driving (E2EAD), achieving the best open-loop evaluation performance in nuScenes, meanwhile showing robust closed-loop driving quality in CARLA. Our motivation stems from the observation that current E2EAD models still mimic the modular architecture in typical driving stacks, with carefully designed supervised perception and prediction subtasks to provide environment information for oriented planning. Although achieving groundbreaking progress, such design has certain drawbacks: 1) preceding subtasks require massive high-quality 3D annotations as supervision, posing a significant impediment to scaling the training data; 2) each submodule entails substantial computation overhead in both training and inference. To this end, we propose UAD, an E2EAD framework with an unsupervised proxy to address all these issues. Firstly, we design a novel Angular Perception Pretext to eliminate the annotation requirement. The pretext models the driving scene by predicting the angular-wise spatial objectness and temporal dynamics, without manual annotation. Secondly, a self-supervised training strategy, which learns the consistency of the predicted trajectories under different augment views, is proposed to enhance the planning robustness in steering scenarios. Our UAD achieves 38.7% relative improvements over UniAD on the average collision rate in nuScenes and surpasses VAD for 41.32 points on the driving score in CARLA's Town05 Long benchmark. Moreover, the proposed method only consumes 44.3% training resources of UniAD and runs 3.4 times faster in inference. Our innovative design not only for the first time demonstrates unarguable performance advantages over supervised counterparts, but also enjoys unprecedented efficiency in data, training, and inference. Code and models will be released at https://github.com/KargoBot_Research/UAD.
- Abstract(参考訳): 本稿では,視覚に基づくエンド・ツー・エンド自動運転(E2EAD)の手法であるUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な運転スタックのモジュラーアーキテクチャを模倣していることに起因しています。
画期的な進歩を遂げたものの、そのような設計には何らかの欠点がある。
1)事前のサブタスクは、トレーニングデータのスケーリングに重大な障害を生じさせることなく、監督として高品質な3Dアノテーションを大量に必要とします。
2) 各サブモジュールは、トレーニングと推論の両方において、かなりの計算オーバーヘッドを伴います。
この目的のために我々は,これらすべての問題に対処するための,教師なしプロキシを備えたE2EADフレームワークであるUADを提案する。
まず、アノテーションの要求をなくすために、新しいAngular Perception Pretextを設計する。
プリテキストは、手動のアノテーションを使わずに、角度方向の空間的対象性と時間的ダイナミクスを予測することによって、運転シーンをモデル化する。
第2に,予測軌道の整合性を異なるオーグメント視点で学習する自己指導型トレーニング戦略を提案し,ステアリングシナリオにおける計画ロバスト性を高める。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
さらに、提案手法は、UniADの44.3%のトレーニングリソースしか消費せず、推論で3.4倍高速に動作している。
私たちのイノベーティブなデザインは、教師付きのものよりも不確実なパフォーマンス上のアドバンテージを示すだけでなく、データ、トレーニング、推論における前例のない効率性も享受しています。
コードとモデルはhttps://github.com/KargoBot_Research/UAD.comでリリースされる。
関連論文リスト
- HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesデータセットで行った実験は、DiFSDの優れた計画性能と優れた効率を示す。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - BAT: Behavior-Aware Human-Like Trajectory Prediction for Autonomous
Driving [24.123577277806135]
我々は行動認識軌道予測モデル(BAT)を考案した。
我々のモデルは行動認識、相互作用認識、優先度認識、位置認識モジュールから構成される。
次世代シミュレーション(NGSIM)、ハイウェイドローン(HighD)、ラウンドアバウンドドローン(RounD)、マカオコネクテッド自律運転(MoCAD)データセットにおけるBATの性能を評価する。
論文 参考訳(メタデータ) (2023-12-11T13:27:51Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。
VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。
VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文 参考訳(メタデータ) (2023-03-21T17:59:22Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。