論文の概要: Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.14197v3
- Date: Fri, 17 Jan 2025 06:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:57:44.968940
- Title: Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
- Title(参考訳): 自動運転の世界における運転:世界モデルによる視覚中心の4D運転予測と計画
- Authors: Yu Yang, Jianbiao Mei, Yukai Ma, Siliang Du, Wenqing Chen, Yijie Qian, Yuxiang Feng, Yong Liu,
- Abstract要約: Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
- 参考スコア(独自算出の注目度): 15.100104512786107
- License:
- Abstract: World models envision potential future states based on various ego actions. They embed extensive knowledge about the driving environment, facilitating safe and scalable autonomous driving. Most existing methods primarily focus on either data generation or the pretraining paradigms of world models. Unlike the aforementioned prior works, we propose Drive-OccWorld, which adapts a vision-centric 4D forecasting world model to end-to-end planning for autonomous driving. Specifically, we first introduce a semantic and motion-conditional normalization in the memory module, which accumulates semantic and dynamic information from historical BEV embeddings. These BEV features are then conveyed to the world decoder for future occupancy and flow forecasting, considering both geometry and spatiotemporal modeling. Additionally, we propose injecting flexible action conditions, such as velocity, steering angle, trajectory, and commands, into the world model to enable controllable generation and facilitate a broader range of downstream applications. Furthermore, we explore integrating the generative capabilities of the 4D world model with end-to-end planning, enabling continuous forecasting of future states and the selection of optimal trajectories using an occupancy-based cost function. Comprehensive experiments conducted on the nuScenes, nuScenes-Occupancy, and Lyft-Level5 datasets illustrate that our method can generate plausible and controllable 4D occupancy, paving the way for advancements in driving world generation and end-to-end planning. Project page: https://drive-occworld.github.io/
- Abstract(参考訳): 世界モデルは、様々なエゴ行動に基づいて将来の状態を想定している。
それらは、運転環境に関する広範な知識を埋め込んで、安全でスケーラブルな自動運転を促進する。
既存のほとんどの手法は、主にデータ生成または世界モデルの事前学習パラダイムに焦点を当てている。
上記と異なり、我々はビジョン中心の4D予測世界モデルに自律運転のエンド・ツー・エンド計画を適用するDrive-OccWorldを提案する。
具体的には、まず、メモリモジュールに意味的および運動条件の正規化を導入し、歴史的BEV埋め込みから意味的および動的情報を蓄積する。
これらのBEV機能は、幾何学と時空間モデリングの両方を考慮して、将来の占有とフロー予測のために世界デコーダに伝達される。
さらに、速度、操舵角度、軌道、指令などの柔軟な動作条件を世界モデルに注入し、制御可能な生成を可能にし、より広範囲の下流アプリケーションを容易にする。
さらに,4次元世界モデルの生成機能とエンド・ツー・エンド・プランニングの統合,将来状態の連続予測,および占有型コスト関数を用いた最適軌道の選択について検討する。
nuScenes、nuScenes-Occupancy、Lyft-Level5データセットに関する包括的な実験は、我々の手法が可塑性で制御可能な4D占有率を生成できることを示している。
プロジェクトページ: https://drive-occworld.github.io/
関連論文リスト
- The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - UnO: Unsupervised Occupancy Fields for Perception and Forecasting [33.205064287409094]
監督されたアプローチは、アノテートされたオブジェクトラベルを利用して世界のモデルを学ぶ。
我々は,LiDARデータから連続した4次元占有領域を自己監督して知覚し,予測することを学ぶ。
この教師なしの世界モデルは、タスクに簡単かつ効果的に転送できる。
論文 参考訳(メタデータ) (2024-06-12T23:22:23Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。