論文の概要: SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2404.06892v1
- Date: Wed, 10 Apr 2024 10:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-11 14:50:32.817938
- Title: SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving
- Title(参考訳): SparseAD: 効率的なエンドツーエンド自動運転のためのスパースクエリ中心パラダイム
- Authors: Diankun Zhang, Guoan Wang, Runwen Zhu, Jianbo Zhao, Xiwu Chen, Siyu Zhang, Jiahao Gong, Qibin Zhou, Wenyuan Zhang, Ningzi Wang, Feiyang Tan, Hangning Zhou, Ziyao Xu, Haotian Yao, Chi Zhang, Xiaojun Liu, Xiaoguang Di, Bin Li,
- Abstract要約: エンドツーエンド自動運転のためのスパースクエリ中心のパラダイムを提案する。
我々は、検出、追跡、オンラインマッピングを含む知覚タスクのための統一されたスパースアーキテクチャを設計する。
挑戦的なnuScenesデータセットでは、SparseADはエンドツーエンドメソッド間でSOTAフルタスクのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.404790614427924
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-End paradigms use a unified framework to implement multi-tasks in an autonomous driving system. Despite simplicity and clarity, the performance of end-to-end autonomous driving methods on sub-tasks is still far behind the single-task methods. Meanwhile, the widely used dense BEV features in previous end-to-end methods make it costly to extend to more modalities or tasks. In this paper, we propose a Sparse query-centric paradigm for end-to-end Autonomous Driving (SparseAD), where the sparse queries completely represent the whole driving scenario across space, time and tasks without any dense BEV representation. Concretely, we design a unified sparse architecture for perception tasks including detection, tracking, and online mapping. Moreover, we revisit motion prediction and planning, and devise a more justifiable motion planner framework. On the challenging nuScenes dataset, SparseAD achieves SOTA full-task performance among end-to-end methods and significantly narrows the performance gap between end-to-end paradigms and single-task methods. Codes will be released soon.
- Abstract(参考訳): エンドツーエンドのパラダイムは、統合されたフレームワークを使用して、自律運転システムにマルチタスクを実装する。
単純さと明快さにもかかわらず、サブタスクにおけるエンドツーエンドの自律走行方式のパフォーマンスは、シングルタスク方式よりもはるかに遅れている。
一方、従来のエンドツーエンドメソッドで広く使われている密集したBEV機能は、より多くのモダリティやタスクに拡張するのにコストがかかる。
本稿では,Sparse Driving (SparseAD) のためのSparseクエリ中心のパラダイムを提案し,Sparseクエリは,高密度なBEV表現を伴わない空間,時間,タスク全体の実行シナリオを完全に表現する。
具体的には、検出、追跡、オンラインマッピングを含む知覚タスクのための統一されたスパースアーキテクチャを設計する。
さらに, 動き予測と計画を再考し, より妥当な動きプランナーの枠組みを考案する。
挑戦的なnuScenesデータセットでは、SparseADはエンドツーエンドメソッド間でSOTAフルタスクのパフォーマンスを達成し、エンドツーエンドパラダイムと単一タスクメソッドのパフォーマンスギャップを著しく狭める。
コードも間もなくリリースされる予定だ。
関連論文リスト
- DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving [17.939192289319056]
本稿では,条件付き画像生成タスクとして自律運転を再定義する拡散確率モデルであるDiffADを紹介する。
不均一な目標を統一された鳥眼ビュー(BEV)に固定し、その潜伏分布をモデル化することにより、DiffADは様々な駆動目標を統一する。
逆プロセスは生成したBEV画像を反復的に洗練し、より堅牢で現実的な運転行動をもたらす。
論文 参考訳(メタデータ) (2025-03-15T15:23:35Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder [3.0989923815412204]
我々は、HiP-ADと呼ばれる新しいエンドツーエンドの自動運転フレームワークを提案する。
HiP-ADは同時に、統合デコーダ内で認識、予測、計画を行う。
HiP-ADは、クローズドループベンチマークであるBench2Driveにおいて、既存のエンドツーエンドの自動運転手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-03-11T16:52:45Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation [11.011219709863875]
我々はSparseDriveという新しいエンドツーエンドの自動運転パラダイムを提案する。
SparseDriveは対称なスパース認識モジュールとパラレルモーションプランナーで構成されている。
動作予測と計画について,これら2つの課題の相似性を概観し,運動プランナの並列設計に繋がる。
論文 参考訳(メタデータ) (2024-05-30T02:13:56Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。
マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。
基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文 参考訳(メタデータ) (2023-06-29T14:17:24Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z) - YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception [1.6683976936678229]
マルチタスク学習アプローチは、単眼駆動認識問題の解法において有望な結果を得た。
本稿では,交通物体検出,ドライビング可能な道路領域分割,車線検出のタスクを同時に行うために,効果的かつ効率的なマルチタスク学習ネットワークを提案する。
我々のモデルは、BDD100Kデータセットの精度とスピードの観点から、新しい最先端(SOTA)パフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-08-24T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。