Fugu-MT 論文翻訳(概要): Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

論文の概要: Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

arxiv url: http://arxiv.org/abs/2408.14197v3
Date: Fri, 17 Jan 2025 06:46:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.505855
Title: Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
Title（参考訳）: 自動運転の世界における運転:世界モデルによる視覚中心の4D運転予測と計画
Authors: Yu Yang, Jianbiao Mei, Yukai Ma, Siliang Du, Wenqing Chen, Yijie Qian, Yuxiang Feng, Yong Liu,
Abstract要約: Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
参考スコア（独自算出の注目度）: 15.100104512786107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World models envision potential future states based on various ego actions. They embed extensive knowledge about the driving environment, facilitating safe and scalable autonomous driving. Most existing methods primarily focus on either data generation or the pretraining paradigms of world models. Unlike the aforementioned prior works, we propose Drive-OccWorld, which adapts a vision-centric 4D forecasting world model to end-to-end planning for autonomous driving. Specifically, we first introduce a semantic and motion-conditional normalization in the memory module, which accumulates semantic and dynamic information from historical BEV embeddings. These BEV features are then conveyed to the world decoder for future occupancy and flow forecasting, considering both geometry and spatiotemporal modeling. Additionally, we propose injecting flexible action conditions, such as velocity, steering angle, trajectory, and commands, into the world model to enable controllable generation and facilitate a broader range of downstream applications. Furthermore, we explore integrating the generative capabilities of the 4D world model with end-to-end planning, enabling continuous forecasting of future states and the selection of optimal trajectories using an occupancy-based cost function. Comprehensive experiments conducted on the nuScenes, nuScenes-Occupancy, and Lyft-Level5 datasets illustrate that our method can generate plausible and controllable 4D occupancy, paving the way for advancements in driving world generation and end-to-end planning. Project page: https://drive-occworld.github.io/
Abstract（参考訳）: 世界モデルは、様々なエゴ行動に基づいて将来の状態を想定している。それらは、運転環境に関する広範な知識を埋め込んで、安全でスケーラブルな自動運転を促進する。既存のほとんどの手法は、主にデータ生成または世界モデルの事前学習パラダイムに焦点を当てている。上記と異なり、我々はビジョン中心の4D予測世界モデルに自律運転のエンド・ツー・エンド計画を適用するDrive-OccWorldを提案する。具体的には、まず、メモリモジュールに意味的および運動条件の正規化を導入し、歴史的BEV埋め込みから意味的および動的情報を蓄積する。これらのBEV機能は、幾何学と時空間モデリングの両方を考慮して、将来の占有とフロー予測のために世界デコーダに伝達される。さらに、速度、操舵角度、軌道、指令などの柔軟な動作条件を世界モデルに注入し、制御可能な生成を可能にし、より広範囲の下流アプリケーションを容易にする。さらに,4次元世界モデルの生成機能とエンド・ツー・エンド・プランニングの統合,将来状態の連続予測,および占有型コスト関数を用いた最適軌道の選択について検討する。 nuScenes、nuScenes-Occupancy、Lyft-Level5データセットに関する包括的な実験は、我々の手法が可塑性で制御可能な4D占有率を生成できることを示している。プロジェクトページ: https://drive-occworld.github.io/

関連論文リスト

World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model [18.56171397212777]
We present World4Drive, a end-to-end autonomous driving framework that using vision foundation model to build latent world model。 World4Driveは、オープンループのnuScenesとクローズループのNavSimベンチマークに手動の認識アノテーションなしで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-01T09:36:38Z)
DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving [20.197094443215963]
本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。 DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
論文参考訳（メタデータ） (2025-05-25T17:27:59Z)
End-to-End Driving with Online Trajectory Evaluation via BEV World Model [52.10633338584164]
本稿では,BEV Worldモデルを活用し,将来のBEV状態を予測するためのエンドツーエンド駆動フレームワークWoTEを提案する。我々は,NAVSIMベンチマークとCARLAシミュレータに基づく閉ループBench2Driveベンチマークを用いて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-02T17:47:23Z)
The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。 DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文参考訳（メタデータ） (2025-02-14T18:43:15Z)
Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。 PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-11T07:12:26Z)
DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文参考訳（メタデータ） (2024-10-14T17:19:23Z)
UnO: Unsupervised Occupancy Fields for Perception and Forecasting [33.205064287409094]
監督されたアプローチは、アノテートされたオブジェクトラベルを利用して世界のモデルを学ぶ。我々は,LiDARデータから連続した4次元占有領域を自己監督して知覚し,予測することを学ぶ。この教師なしの世界モデルは、タスクに簡単かつ効果的に転送できる。
論文参考訳（メタデータ） (2024-06-12T23:22:23Z)
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。 DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文参考訳（メタデータ） (2024-05-07T15:14:20Z)
GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-03-14T17:58:33Z)
GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文参考訳（メタデータ） (2024-02-18T08:21:05Z)
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文参考訳（メタデータ） (2023-11-29T18:59:47Z)
TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文参考訳（メタデータ） (2023-03-07T18:28:41Z)
End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2021-01-17T14:16:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。