論文の概要: Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.18341v2
- Date: Sat, 01 Mar 2025 10:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:09:43.007943
- Title: Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving
- Title(参考訳): エンド・ツー・エンド自動運転のためのナビゲーションガイド付きスパースシーン表現
- Authors: Peidong Li, Dixiao Cui,
- Abstract要約: SSRは16個のナビゲーション誘導トークンのみをスパースシーン表現として利用する新しいフレームワークである。
提案手法は,人間設計による教師付きサブタスクの必要性を排除し,計算資源が必須要素に集中できるようにする。
SSRはL2エラーを27.2%減少させ、nuScenesでは51.6%の衝突速度をUniADに還元し、10.9$times$高速推論速度と13$times$高速トレーニングタイムを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: End-to-End Autonomous Driving (E2EAD) methods typically rely on supervised perception tasks to extract explicit scene information (e.g., objects, maps). This reliance necessitates expensive annotations and constrains deployment and data scalability in real-time applications. In this paper, we introduce SSR, a novel framework that utilizes only 16 navigation-guided tokens as Sparse Scene Representation, efficiently extracting crucial scene information for E2EAD. Our method eliminates the need for human-designed supervised sub-tasks, allowing computational resources to concentrate on essential elements directly related to navigation intent. We further introduce a temporal enhancement module, aligning predicted future scenes with actual future scenes through self-supervision. SSR achieves a 27.2\% relative reduction in L2 error and a 51.6\% decrease in collision rate to UniAD in nuScenes, with a 10.9$\times$ faster inference speed and 13$\times$ faster training time. Moreover, SSR outperforms VAD-Base with a 48.6-point improvement on driving score in CARLA's Town05 Long benchmark. This framework represents a significant leap in real-time autonomous driving systems and paves the way for future scalable deployment. Code is available at https://github.com/PeidongLi/SSR.
- Abstract(参考訳): E2EAD(End-to-End Autonomous Driving)の手法は、通常、明示的なシーン情報(例えば、オブジェクト、マップ)を抽出するために、教師付き知覚タスクに依存する。
この依存は、高額なアノテーションを必要とし、リアルタイムアプリケーションにおけるデプロイメントとデータのスケーラビリティを制約します。
本稿では,16個のナビゲーション誘導トークンのみをスパースシーン表現として利用し,E2EADの重要なシーン情報を効率的に抽出する新しいフレームワークであるSSRを紹介する。
提案手法では,人間設計による教師付きサブタスクの必要性を排除し,ナビゲーション意図に直接関係する重要な要素に計算資源を集中させることができる。
さらに,時間的拡張モジュールを導入し,予測される未来シーンと現実の未来シーンとを自己監督により整合させる。
SSR は L2 エラーを相対的に 27.2 % 減少させ、nuScenes における UniAD との衝突速度を 51.6 % 減少させ、10.9$\times$ 高速推論速度と 13$\times$ 高速トレーニングタイムを実現している。
さらに、SSR は CARLA の Town05 Long ベンチマークで駆動スコアを 48.6 ポイント改善した VAD-Base よりも優れていた。
このフレームワークは、リアルタイム自動運転システムにおける大きな飛躍であり、将来のスケーラブルなデプロイメントの道を開くものだ。
コードはhttps://github.com/PeidongLi/SSRで入手できる。
関連論文リスト
- LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction [6.428928591765432]
Gaussian Splatting (GS)は、シーンの3Dガウス表現を明示してリアルタイムレンダリングを容易にする。
GSは暗黙のニューラルレイディアンスフィールド(NeRF)よりも高速な処理と直感的なシーン編集を提供する
動的シーン合成と編集のための新しいGS法を提案し,LiDARの監督とLiDARレンダリングのサポートを通じてシーン再構成を改善した。
論文 参考訳(メタデータ) (2024-12-19T22:59:55Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in
nuScenes [38.43491956142818]
計画課題は、内部意図と外部環境の両方からの入力に基づいて、エゴ車両の軌道を予測することである。
既存の研究の多くは、予測された軌道と地上の真実との衝突率とL2誤差を用いて、nuScenesデータセット上での性能を評価する。
本稿では,これらの既存の評価指標を再評価し,異なる手法の優越性を正確に測定するかどうかを検討する。
我々の単純な手法は、nuScenesデータセットと他の知覚に基づく手法と同じようなエンド・ツー・エンドの計画性能を実現し、平均L2誤差を約20%削減する。
論文 参考訳(メタデータ) (2023-05-17T17:59:11Z) - VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。
VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。
VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文 参考訳(メタデータ) (2023-03-21T17:59:22Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。