論文の概要: Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
- arxiv url: http://arxiv.org/abs/2506.07497v2
- Date: Wed, 11 Jun 2025 08:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.023577
- Title: Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
- Title(参考訳): 時空間的・時間的整合性を考慮したマルチモーダル運転シーン生成
- Authors: Xiangyu Guo, Zhanqian Wu, Kaixin Xiong, Ziyang Xu, Lijun Zhou, Gangwei Xu, Shaoqing Xu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本稿では、駆動ビデオとLiDARシーケンスの合同生成のための統一的なフレームワークを提案する。
我々は,3D-VAEモダリティにDiTベースのビデオ拡散モデルを統合する2段階アーキテクチャと,NeRFベースのレンダリングと適応サンプリングを備えたBEV対応LiDARジェネレータを用いる。
構造化セマンティクスで生成をガイドするために,シーンレベルとインスタンス言語を統括する視覚レベルモデル上に構築されたキャプションモジュールであるDataCrafterを紹介する。
- 参考スコア(独自算出の注目度): 32.16082566679126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Genesis, a unified framework for joint generation of multi-view driving videos and LiDAR sequences with spatio-temporal and cross-modal consistency. Genesis employs a two-stage architecture that integrates a DiT-based video diffusion model with 3D-VAE encoding, and a BEV-aware LiDAR generator with NeRF-based rendering and adaptive sampling. Both modalities are directly coupled through a shared latent space, enabling coherent evolution across visual and geometric domains. To guide the generation with structured semantics, we introduce DataCrafter, a captioning module built on vision-language models that provides scene-level and instance-level supervision. Extensive experiments on the nuScenes benchmark demonstrate that Genesis achieves state-of-the-art performance across video and LiDAR metrics (FVD 16.95, FID 4.24, Chamfer 0.611), and benefits downstream tasks including segmentation and 3D detection, validating the semantic fidelity and practical utility of the generated data.
- Abstract(参考訳): 本稿では,多視点駆動ビデオとLiDARシーケンスの同時生成のための統合フレームワークGenesisについて紹介する。
Genesisは、DiTベースのビデオ拡散モデルと3D-VAEエンコーディングを統合した2段階アーキテクチャと、NeRFベースのレンダリングと適応サンプリングを備えたBEV対応のLiDARジェネレータを採用している。
両方のモダリティは共有潜在空間を通して直接結合され、視覚的および幾何学的領域間のコヒーレントな進化を可能にする。
構造化セマンティクスで生成をガイドするために,シーンレベルの監視とインスタンスレベルの監視を提供する視覚言語モデル上に構築されたキャプションモジュールであるDataCrafterを紹介した。
nuScenesベンチマークの広範な実験により、GenesisはビデオとLiDARのメトリクス(FVD 16.95、FID 4.24、Chamfer 0.611)をまたいだ最先端のパフォーマンスを達成し、セグメンテーションや3D検出といった下流のタスク、セマンティックな忠実さの検証、生成されたデータの実用性などの恩恵を享受している。
関連論文リスト
- DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文 参考訳(メタデータ) (2025-05-26T18:55:14Z) - Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets [90.99212668875971]
Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-05-12T16:56:30Z) - Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。
コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2025-03-05T09:30:49Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。