論文の概要: DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.19239v1
- Date: Sun, 25 May 2025 17:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.997696
- Title: DriveX: Omni Scene Modeling for Learning Generalizable World Knowledge in Autonomous Driving
- Title(参考訳): DriveX:Omni Scene Modeling for Learning Generalizable World Knowledge in autonomous Driving
- Authors: Chen Shi, Shaoshuai Shi, Kehua Sheng, Bo Zhang, Li Jiang,
- Abstract要約: 本稿では、動画から一般的なシーンのダイナミクスと全体像を学習する自己教師型世界モデルDriveXを提案する。
DriveXは,マルチモーダル監視3Dポイントクラウド予測,2Dセマンティック表現,イメージ生成を統合するモジュールであるOmni Scene Modeling (OSM)を導入した。
下流適応のために我々は,DriveXの予測から特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
- 参考スコア(独自算出の注目度): 20.197094443215963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven learning has advanced autonomous driving, yet task-specific models struggle with out-of-distribution scenarios due to their narrow optimization objectives and reliance on costly annotated data. We present DriveX, a self-supervised world model that learns generalizable scene dynamics and holistic representations (geometric, semantic, and motion) from large-scale driving videos. DriveX introduces Omni Scene Modeling (OSM), a module that unifies multimodal supervision-3D point cloud forecasting, 2D semantic representation, and image generation-to capture comprehensive scene evolution. To simplify learning complex dynamics, we propose a decoupled latent world modeling strategy that separates world representation learning from future state decoding, augmented by dynamic-aware ray sampling to enhance motion modeling. For downstream adaptation, we design Future Spatial Attention (FSA), a unified paradigm that dynamically aggregates spatiotemporal features from DriveX's predictions to enhance task-specific inference. Extensive experiments demonstrate DriveX's effectiveness: it achieves significant improvements in 3D future point cloud prediction over prior work, while attaining state-of-the-art results on diverse tasks including occupancy prediction, flow estimation, and end-to-end driving. These results validate DriveX's capability as a general-purpose world model, paving the way for robust and unified autonomous driving frameworks.
- Abstract(参考訳): データ駆動学習には、高度な自律運転があるが、タスク固有のモデルは、最適化目標の狭さと、高価な注釈付きデータに依存するため、配布外シナリオに苦しむ。
大規模ドライビングビデオから一般化可能なシーンダイナミクスと全体論的表現(幾何学,セマンティック,モーション)を学習する自己教師型世界モデルであるDriveXを提案する。
DriveXはOmni Scene Modeling (OSM)を導入した。Omni Scene Modelingは、マルチモーダルな3Dポイントクラウド予測、2Dセマンティック表現、画像生成を統合化し、包括的なシーンの進化をキャプチャするモジュールである。
複雑なダイナミクスの学習を簡略化するために,動的に認識された線サンプリングによって強化され,動作モデリングを強化することで,世界表現学習と将来の状態復号とを分離する疎結合な潜在世界モデリング戦略を提案する。
下流適応のために我々は,DriveXの予測から時空間的特徴を動的に集約し,タスク固有の推論を強化する統一パラダイムであるFuture Spatial Attention (FSA)を設計する。
大規模な実験は、DriveXの有効性を実証している: 以前の作業よりも3Dの将来のクラウド予測を大幅に改善すると同時に、占有率予測、フロー推定、エンドツーエンドの運転を含む様々なタスクにおける最先端の結果を得る。
これらの結果は、DriveXの汎用世界モデルとしての能力を評価し、堅牢で統一された自動運転フレームワークへの道を開いた。
関連論文リスト
- FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [16.588458512862932]
視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models [22.21497010925769]
DriveGenは、より多様なトラフィック生成のための大きなモデルを備えた、新しいトラフィックシミュレーションフレームワークである。
DriveGenは、大規模モデルのハイレベルな認識と運転行動の推論を完全に活用する。
生成したシナリオとコーナーケースは、最先端のベースラインよりも優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-03-04T06:14:21Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。