論文の概要: DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.07656v1
- Date: Fri, 07 Mar 2025 11:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:41.085005
- Title: DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving
- Title(参考訳): Drive Transformer: スケーラブルなエンドツーエンド自動運転のための統一トランス
- Authors: Xiaosong Jia, Junqi You, Zhiyuan Zhang, Junchi Yan,
- Abstract要約: DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 62.62464518137153
- License:
- Abstract: End-to-end autonomous driving (E2E-AD) has emerged as a trend in the field of autonomous driving, promising a data-driven, scalable approach to system design. However, existing E2E-AD methods usually adopt the sequential paradigm of perception-prediction-planning, which leads to cumulative errors and training instability. The manual ordering of tasks also limits the system`s ability to leverage synergies between tasks (for example, planning-aware perception and game-theoretic interactive prediction and planning). Moreover, the dense BEV representation adopted by existing methods brings computational challenges for long-range perception and long-term temporal fusion. To address these challenges, we present DriveTransformer, a simplified E2E-AD framework for the ease of scaling up, characterized by three key features: Task Parallelism (All agent, map, and planning queries direct interact with each other at each block), Sparse Representation (Task queries direct interact with raw sensor features), and Streaming Processing (Task queries are stored and passed as history information). As a result, the new framework is composed of three unified operations: task self-attention, sensor cross-attention, temporal cross-attention, which significantly reduces the complexity of system and leads to better training stability. DriveTransformer achieves state-of-the-art performance in both simulated closed-loop benchmark Bench2Drive and real world open-loop benchmark nuScenes with high FPS.
- Abstract(参考訳): エンドツーエンドの自動運転(E2E-AD)は、データ駆動でスケーラブルなシステム設計アプローチを約束する自動運転分野のトレンドとして現れている。
しかし、既存のE2E-AD法は通常、知覚予測計画のシーケンシャルパラダイムを採用し、累積誤差とトレーニング不安定をもたらす。
タスクのマニュアル順序付けはまた、タスク間のシナジー(例えば、計画認識とゲーム理論のインタラクティブな予測と計画)を活用するシステムの能力を制限する。
さらに、既存手法で採用されている高密度BEV表現は、長距離知覚と長期時間融合に対する計算上の課題をもたらす。
タスク並列性(すべてのエージェント,マップ,計画クエリ)、スパース表現(タスククエリは生のセンサ機能と直接対話する)、ストリーミング処理(タスククエリは履歴情報として格納され,渡される)の3つの主要な特徴を特徴とする,スケールアップを容易にする簡易なE2E-ADフレームワークであるDriveTransformerを提案する。
その結果、新しいフレームワークは3つの統合された操作で構成されている:タスクの自己注意、センサーのクロスアテンション、時間的クロスアテンション。
DriveTransformerは、シミュレーションされたクローズドループベンチマークBench2Driveと、高いFPSを持つ実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを達成する。
関連論文リスト
- FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback [15.805379735361862]
本稿では,認知モデル "Thinking, Fast and Slow" に触発された新しいデュアルシステムフレームワークであるFASIONADを提案する。
高速システムは、高速でデータ駆動の経路計画を使用してルーチンナビゲーションタスクを処理し、遅いシステムは、困難な状況や不慣れな状況における複雑な推論と意思決定に重点を置いている。
高速システムによって生成された視覚的プロンプトは、低速システムにおける人間のような推論を可能にし、高速システムの意思決定を強化するための高品質なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-11-27T03:14:16Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving [27.731481134782577]
現在のモデルは、通常、タスクヘッドのオブジェクト表現を強化するために隣のフレームから特徴を集約します。
これらの手法は将来のフレームからの情報に依存し、高い計算複雑性に悩まされる。
本稿では,これらの問題を解決するために,段階的に空間的局所集約ネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T08:12:51Z) - SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving [13.404790614427924]
エンドツーエンド自動運転のためのスパースクエリ中心のパラダイムを提案する。
我々は、検出、追跡、オンラインマッピングを含む知覚タスクのための統一されたスパースアーキテクチャを設計する。
挑戦的なnuScenesデータセットでは、SparseADはエンドツーエンドメソッド間でSOTAフルタスクのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-10T10:34:34Z) - Multi-task Learning for Real-time Autonomous Driving Leveraging
Task-adaptive Attention Generator [15.94714567272497]
我々は,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転タスクに適応する新しいリアルタイムマルチタスクネットワークを提案する。
マルチタスク学習の課題であるネガティブトランスファーの課題に対処するために,タスク適応型アテンションジェネレータを導入する。
私たちの厳格に最適化されたネットワークは、Cityscapes-3Dデータセットでテストすると、さまざまなベースラインモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-03-06T05:04:40Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。