Fugu-MT 論文翻訳(概要): DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving

論文の概要: DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2409.09777v1
Date: Sun, 15 Sep 2024 15:55:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 17:30:41.931832
Title: DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving
Title（参考訳）: DiFSD: 効率的なエンド・ツー・エンド自動運転のための不確実なデノジングと反復的リファインメントを備えたEgo-Centric Fully Sparse Paradigm
Authors: Haisheng Su, Wei Wu, Junchi Yan,
Abstract要約: 我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。 nuScenesデータセットで行った実験は、DiFSDの優れた計画性能と優れた効率を示す。
参考スコア（独自算出の注目度）: 55.53171248839489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current end-to-end autonomous driving methods resort to unifying modular designs for various tasks (e.g. perception, prediction and planning). Although optimized in a planning-oriented spirit with a fully differentiable framework, existing end-to-end driving systems without ego-centric designs still suffer from unsatisfactory performance and inferior efficiency, owing to the rasterized scene representation learning and redundant information transmission. In this paper, we revisit the human driving behavior and propose an ego-centric fully sparse paradigm, named DiFSD, for end-to-end self-driving. Specifically, DiFSD mainly consists of sparse perception, hierarchical interaction and iterative motion planner. The sparse perception module performs detection, tracking and online mapping based on sparse representation of the driving scene. The hierarchical interaction module aims to select the Closest In-Path Vehicle / Stationary (CIPV / CIPS) from coarse to fine, benefiting from an additional geometric prior. As for the iterative motion planner, both selected interactive agents and ego-vehicle are considered for joint motion prediction, where the output multi-modal ego-trajectories are optimized in an iterative fashion. Besides, both position-level motion diffusion and trajectory-level planning denoising are introduced for uncertainty modeling, thus facilitating the training stability and convergence of the whole framework. Extensive experiments conducted on nuScenes dataset demonstrate the superior planning performance and great efficiency of DiFSD, which significantly reduces the average L2 error by \textbf{66\%} and collision rate by \textbf{77\%} than UniAD while achieves \textbf{8.2$\times$} faster running efficiency.
Abstract（参考訳）: 現在のエンドツーエンドの自動運転手法では、様々なタスク(知覚、予測、計画など)のためのモジュラー設計を統合する。完全に差別化可能なフレームワークを備えた計画指向の精神で最適化されているが、既存のエゴ中心設計のエンド・ツー・エンド駆動システムは、ラスタ化されたシーン表現学習と冗長な情報伝達のために、未だに満足のいく性能と低効率に悩まされている。本稿では,人間の運転行動を再考し,エンド・ツー・エンド自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。スパース認識モジュールは、運転シーンのスパース表現に基づいて、検出、追跡、オンラインマッピングを行う。階層的な相互作用モジュールは、クローズト・イン・パス・ビークル/ステイナリー(CIPV/CIPS)を粗いものから粗いものへ選択することを目的としており、追加の幾何学的事前の恩恵を受けている。反復運動プランナについては,複数モードのエゴ軌道を反復的に最適化した共同動作予測において,選択された対話エージェントとエゴ車両の両方が考慮される。さらに、不確実性モデリングのために、位置レベルの運動拡散と軌道レベルの計画記述の両方を導入し、フレームワーク全体のトレーニング安定性と収束を容易にする。 nuScenesデータセット上で行った大規模な実験は、DiFSDの優れた計画性能と優れた効率を示しており、これは平均L2誤差をUniADより大幅に低減し、衝突速度をUniADより低くし、より高速なランニング効率を実現している。

関連論文リスト

SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文参考訳（メタデータ） (2025-04-06T03:23:48Z)
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文参考訳（メタデータ） (2025-03-18T03:25:57Z)
HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder [3.0989923815412204]
我々は、HiP-ADと呼ばれる新しいエンドツーエンドの自動運転フレームワークを提案する。 HiP-ADは同時に、統合デコーダ内で認識、予測、計画を行う。 HiP-ADは、クローズドループベンチマークであるBench2Driveにおいて、既存のエンドツーエンドの自動運転手法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-03-11T16:52:45Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
End-to-End Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境において安全かつ効率的に航行するための基本的な要素である。伝統的に、これらのコンポーネントは、しばしば別々のモジュールとして扱われ、インタラクティブな計画を実行する能力を制限する。単一の一貫性モデルで予測と計画を統合する,統一的でデータ駆動のフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T00:26:01Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation [11.011219709863875]
我々はSparseDriveという新しいエンドツーエンドの自動運転パラダイムを提案する。 SparseDriveは対称なスパース認識モジュールとパラレルモーションプランナーで構成されている。動作予測と計画について,これら2つの課題の相似性を概観し,運動プランナの並列設計に繋がる。
論文参考訳（メタデータ） (2024-05-30T02:13:56Z)
PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文参考訳（メタデータ） (2023-11-14T11:53:24Z)
End-to-end Autonomous Driving: Challenges and Frontiers [45.391430626264764]
エンドツーエンドの自動運転におけるモチベーション、ロードマップ、方法論、課題、今後のトレンドについて、270以上の論文を包括的に分析する。マルチモダリティ、解釈可能性、因果的混乱、堅牢性、世界モデルなど、いくつかの重要な課題を掘り下げます。基礎モデルと視覚前訓練の現在の進歩と、これらの技術をエンドツーエンドの駆動フレームワークに組み込む方法について論じる。
論文参考訳（メタデータ） (2023-06-29T14:17:24Z)
VAD: Vectorized Scene Representation for Efficient Autonomous Driving [44.070636456960045]
VADは、自動運転のためのエンドツーエンドのベクトル化パラダイムである。 VADはベクトル化されたエージェントの動きを利用し、要素を明示的なインスタンスレベルの計画制約としてマップする。 VADは従来のエンドツーエンドの計画手法よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2023-03-21T17:59:22Z)
Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文参考訳（メタデータ） (2022-12-20T10:47:53Z)
NMR: Neural Manifold Representation for Autonomous Driving [2.2596039727344452]
本研究では,有限地平線上の多様体上の意味論を推論し,経路点を予測する自律運転の表現を提案する。本研究では, 周辺単分子画像と部分エゴ車状態の潜時高次元埋め込みに適用した反復的注意機構を用いてこれを行う。本研究では,BEV占有格子のエッジ適応被覆損失に基づくサンプリングアルゴリズムを提案し,表面多様体を生成する。
論文参考訳（メタデータ） (2022-05-11T14:58:08Z)
End-to-End Interactive Prediction and Planning with Optical Flow Distillation for Autonomous Driving [16.340715765227475]
本稿では,自律運転のためのエンドツーエンド対話型ニューラルモーションプランナ(INMP)を提案する。 INMPはまず鳥の目線空間で特徴マップを生成し、それを処理して他のエージェントを検出し、インタラクティブな予測と計画を共同で実行します。また, 実時間推定速度を維持しつつ, ネットワーク性能を効果的に向上できる光フロー蒸留パラダイムを採用している。
論文参考訳（メタデータ） (2021-04-18T14:05:18Z)
IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文参考訳（メタデータ） (2021-01-20T00:31:52Z)
Perceive, Predict, and Plan: Safe Motion Planning Through Interpretable Semantic Representations [81.05412704590707]
本稿では,自動運転車の協調認識,予測,動作計画を行うエンド・ツー・エンドの学習可能なネットワークを提案する。私たちのネットワークは、人間のデモからエンドツーエンドに学習されます。
論文参考訳（メタデータ） (2020-08-13T14:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。