論文の概要: World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
- arxiv url: http://arxiv.org/abs/2507.00603v1
- Date: Tue, 01 Jul 2025 09:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.560526
- Title: World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model
- Title(参考訳): World4Drive: 意図を認識した物理的潜在世界モデルによるエンド・ツー・エンドの自動運転
- Authors: Yupeng Zheng, Pengxuan Yang, Zebin Xing, Qichao Zhang, Yuhang Zheng, Yinfeng Gao, Pengfei Li, Teng Zhang, Zhongpu Xia, Peng Jia, Dongbin Zhao,
- Abstract要約: We present World4Drive, a end-to-end autonomous driving framework that using vision foundation model to build latent world model。
World4Driveは、オープンループのnuScenesとクローズループのNavSimベンチマークに手動の認識アノテーションなしで、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.56171397212777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving directly generates planning trajectories from raw sensor data, yet it typically relies on costly perception supervision to extract scene information. A critical research challenge arises: constructing an informative driving world model to enable perception annotation-free, end-to-end planning via self-supervised learning. In this paper, we present World4Drive, an end-to-end autonomous driving framework that employs vision foundation models to build latent world models for generating and evaluating multi-modal planning trajectories. Specifically, World4Drive first extracts scene features, including driving intention and world latent representations enriched with spatial-semantic priors provided by vision foundation models. It then generates multi-modal planning trajectories based on current scene features and driving intentions and predicts multiple intention-driven future states within the latent space. Finally, it introduces a world model selector module to evaluate and select the best trajectory. We achieve perception annotation-free, end-to-end planning through self-supervised alignment between actual future observations and predicted observations reconstructed from the latent space. World4Drive achieves state-of-the-art performance without manual perception annotations on both the open-loop nuScenes and closed-loop NavSim benchmarks, demonstrating an 18.1\% relative reduction in L2 error, 46.7% lower collision rate, and 3.75 faster training convergence. Codes will be accessed at https://github.com/ucaszyp/World4Drive.
- Abstract(参考訳): エンド・ツー・エンドの自動運転は、生のセンサーデータから直接計画軌跡を生成するが、通常はシーン情報を抽出するためにコストの高い知覚監督に依存している。
重要な研究課題は、自己教師付き学習を通して、認識のアノテーションのないエンドツーエンドの計画を可能にする情報駆動の世界モデルを構築することである。
本稿では,視覚基盤モデルを用いてマルチモーダル計画軌道の生成と評価を行う,エンド・ツー・エンドの自動運転フレームワークWorld4Driveを提案する。
具体的には、World4Driveが最初にシーンの特徴を抽出し、例えば運転意図や視覚基礎モデルによって提供される空間意味の先入観に富んだ世界潜在表現を抽出する。
次に、現在のシーン特徴と駆動意図に基づいてマルチモーダルな計画軌道を生成し、潜在空間内の複数の意図駆動未来状態を予測する。
最後に、最良の軌道を評価し、選択するためのワールドモデルセレクタモジュールを導入する。
我々は,実際の将来の観測と,潜在空間から再構成された予測観測との間の自己監督的アライメントを通じて,認識自由でエンドツーエンドな計画を実現する。
World4Driveは、オープンループのnuScenesとクローズドループのNavSimベンチマークの両方で手動の認識アノテーションなしで最先端のパフォーマンスを実現し、L2エラーの18.1倍の相対的な減少、46.7%の衝突率、3.75の高速なトレーニング収束を示す。
コードはhttps://github.com/ucaszyp/World4Driveでアクセスできる。
関連論文リスト
- DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? [84.17711168595311]
エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする、有望な研究の方向性として浮上している。
比較的単純な駆動シナリオを特徴とするnuScenesデータセットは、エンド・ツー・エンド・モデルにおける知覚情報の未使用化につながる。
予測軌跡が道路に付着するかどうかを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:32:31Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。