論文の概要: GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation
- arxiv url: http://arxiv.org/abs/2512.12751v1
- Date: Sun, 14 Dec 2025 16:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.418019
- Title: GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation
- Title(参考訳): GenieDrive: 4D Occupupancy Guided Video Generationによる物理認識型運転世界モデルを目指して
- Authors: Zhenya Yang, Zhe Liu, Yuxiang Lu, Liping Hou, Chenxuan Miao, Siyi Peng, Bailan Feng, Xiang Bai, Hengshuang Zhao,
- Abstract要約: 我々は物理対応駆動ビデオ生成のためのフレームワークGenieDriveを提案する。
われわれのアプローチは、4Dの占有率の生成から始まり、これはその後のビデオ生成の物理インフォームド基盤として機能する。
実験により、GenieDriveは高度に制御可能で、複数ビューの一貫性があり、物理対応の駆動ビデオ生成を可能にする。
- 参考スコア(独自算出の注目度): 80.1493315900789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physics-aware driving world model is essential for drive planning, out-of-distribution data synthesis, and closed-loop evaluation. However, existing methods often rely on a single diffusion model to directly map driving actions to videos, which makes learning difficult and leads to physically inconsistent outputs. To overcome these challenges, we propose GenieDrive, a novel framework designed for physics-aware driving video generation. Our approach starts by generating 4D occupancy, which serves as a physics-informed foundation for subsequent video generation. 4D occupancy contains rich physical information, including high-resolution 3D structures and dynamics. To facilitate effective compression of such high-resolution occupancy, we propose a VAE that encodes occupancy into a latent tri-plane representation, reducing the latent size to only 58% of that used in previous methods. We further introduce Mutual Control Attention (MCA) to accurately model the influence of control on occupancy evolution, and we jointly train the VAE and the subsequent prediction module in an end-to-end manner to maximize forecasting accuracy. Together, these designs yield a 7.2% improvement in forecasting mIoU at an inference speed of 41 FPS, while using only 3.47 M parameters. Additionally, a Normalized Multi-View Attention is introduced in the video generation model to generate multi-view driving videos with guidance from our 4D occupancy, significantly improving video quality with a 20.7% reduction in FVD. Experiments demonstrate that GenieDrive enables highly controllable, multi-view consistent, and physics-aware driving video generation.
- Abstract(参考訳): 物理認識駆動世界モデルは、ドライブプランニング、アウト・オブ・ディストリビューションデータ合成、クローズドループ評価に不可欠である。
しかし、既存の手法は、動画に直接駆動動作をマッピングする単一の拡散モデルに依存しており、学習が難しく、物理的に矛盾する出力につながる。
これらの課題を克服するために,物理対応駆動ビデオ生成のための新しいフレームワークであるGenieDriveを提案する。
われわれのアプローチは、4Dの占有率の生成から始まり、これはその後のビデオ生成の物理インフォームド基盤として機能する。
4Dの占有には、高解像度の3D構造やダイナミクスを含む、豊富な物理情報が含まれる。
このような高分解能占有率の効率的な圧縮を容易にするため,従来の方法では58%に抑えられた3次元平面表現に占有率をエンコードするVOEを提案する。
さらに,相互制御注意(Mutual Control Attention, MCA)を導入して, 制御が占有進化に与える影響を正確にモデル化し, 予測精度を最大化するために, VAEとその後の予測モジュールをエンドツーエンドにトレーニングする。
これらの設計により、mIoUの予測速度は41 FPSで7.2%改善され、パラメータはわずか3.47Mである。
さらに、ビデオ生成モデルに正規化マルチビューアテンションを導入し、我々の4D占有率から誘導されたマルチビュー駆動ビデオを生成し、20.7%のFVD削減で映像品質を著しく向上させる。
実験により、GenieDriveは高度に制御可能で、複数ビューの一貫性があり、物理対応の駆動ビデオ生成を可能にする。
関連論文リスト
- Physical Informed Driving World Model [47.04423342994622]
DrivePhysicaは、本質的な物理原理に準拠したリアルなドライビングビデオを生成するために設計された革新的なモデルだ。
我々は,Nuscenesデータセット上での3.96 FIDと38.06 FVDの駆動ビデオ生成品質と下流認識タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-11T14:29:35Z) - MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
MagicDrive-V2は、MVDiTブロックと時空間条件エンコーディングを統合し、マルチビュービデオ生成と正確な幾何学的制御を可能にする新しいアプローチである。
これは、解像度が3.3倍、フレーム数が4.4倍のマルチビュー駆動ビデオ合成を可能にする(現在のSOTAと比較)。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation [32.19534057884047]
本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
論文 参考訳(メタデータ) (2024-10-17T14:07:46Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。