Fugu-MT 論文翻訳(概要): End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation

論文の概要: End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation

arxiv url: http://arxiv.org/abs/2406.17680v1
Date: Tue, 25 Jun 2024 16:12:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 13:41:09.732293
Title: End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation
Title（参考訳）: 費用対効果のないエンドツーエンド自動運転と3次元手動アノテーション
Authors: Mingzhe Guo, Zhipeng Zhang, Yuan He, Ke Wang, Liping Jing,
Abstract要約: 視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
参考スコア（独自算出の注目度）: 34.070813293944944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose UAD, a method for vision-based end-to-end autonomous driving (E2EAD), achieving the best open-loop evaluation performance in nuScenes, meanwhile showing robust closed-loop driving quality in CARLA. Our motivation stems from the observation that current E2EAD models still mimic the modular architecture in typical driving stacks, with carefully designed supervised perception and prediction subtasks to provide environment information for oriented planning. Although achieving groundbreaking progress, such design has certain drawbacks: 1) preceding subtasks require massive high-quality 3D annotations as supervision, posing a significant impediment to scaling the training data; 2) each submodule entails substantial computation overhead in both training and inference. To this end, we propose UAD, an E2EAD framework with an unsupervised proxy to address all these issues. Firstly, we design a novel Angular Perception Pretext to eliminate the annotation requirement. The pretext models the driving scene by predicting the angular-wise spatial objectness and temporal dynamics, without manual annotation. Secondly, a self-supervised training strategy, which learns the consistency of the predicted trajectories under different augment views, is proposed to enhance the planning robustness in steering scenarios. Our UAD achieves 38.7% relative improvements over UniAD on the average collision rate in nuScenes and surpasses VAD for 41.32 points on the driving score in CARLA's Town05 Long benchmark. Moreover, the proposed method only consumes 44.3% training resources of UniAD and runs 3.4 times faster in inference. Our innovative design not only for the first time demonstrates unarguable performance advantages over supervised counterparts, but also enjoys unprecedented efficiency in data, training, and inference. Code and models will be released at https://github.com/KargoBot_Research/UAD.
Abstract（参考訳）: 本稿では,視覚に基づくエンド・ツー・エンド自動運転(E2EAD)の手法であるUADを提案する。私たちのモチベーションは、現在のE2EADモデルが依然として典型的な運転スタックのモジュラーアーキテクチャを模倣していることに起因しています。画期的な進歩を遂げたものの、そのような設計には何らかの欠点がある。 1)事前のサブタスクは、トレーニングデータのスケーリングに重大な障害を生じさせることなく、監督として高品質な3Dアノテーションを大量に必要とします。 2) 各サブモジュールは、トレーニングと推論の両方において、かなりの計算オーバーヘッドを伴います。この目的のために我々は,これらすべての問題に対処するための,教師なしプロキシを備えたE2EADフレームワークであるUADを提案する。まず、アノテーションの要求をなくすために、新しいAngular Perception Pretextを設計する。プリテキストは、手動のアノテーションを使わずに、角度方向の空間的対象性と時間的ダイナミクスを予測することによって、運転シーンをモデル化する。第2に,予測軌道の整合性を異なるオーグメント視点で学習する自己指導型トレーニング戦略を提案し,ステアリングシナリオにおける計画ロバスト性を高める。我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。さらに、提案手法は、UniADの44.3%のトレーニングリソースしか消費せず、推論で3.4倍高速に動作している。私たちのイノベーティブなデザインは、教師付きのものよりも不確実なパフォーマンス上のアドバンテージを示すだけでなく、データ、トレーニング、推論における前例のない効率性も享受しています。コードとモデルはhttps://github.com/KargoBot_Research/UAD.comでリリースされる。

関連論文リスト

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving [12.889523014369884]
本稿では,時空における任意の将来点を予測して統一表現を学習する幾何学的,意味論的自己教師型事前学習手法GASPを提案する。実測値の代わりに幾何学的および意味論的4次元占有場をモデル化することにより、モデルは、時間を通して環境と環境の一般的な表現を学習する。
論文参考訳（メタデータ） (2025-03-19T20:00:27Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。 HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文参考訳（メタデータ） (2024-10-07T14:06:16Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。 DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文参考訳（メタデータ） (2024-05-07T15:14:20Z)
BAT: Behavior-Aware Human-Like Trajectory Prediction for Autonomous Driving [24.123577277806135]
我々は行動認識軌道予測モデル(BAT)を考案した。我々のモデルは行動認識、相互作用認識、優先度認識、位置認識モジュールから構成される。次世代シミュレーション(NGSIM)、ハイウェイドローン(HighD)、ラウンドアバウンドドローン(RounD)、マカオコネクテッド自律運転(MoCAD)データセットにおけるBATの性能を評価する。
論文参考訳（メタデータ） (2023-12-11T13:27:51Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。 VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。 VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2023-03-21T17:59:22Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文参考訳（メタデータ） (2022-07-15T16:57:43Z)
IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文参考訳（メタデータ） (2021-01-20T00:31:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。