論文の概要: InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models
- arxiv url: http://arxiv.org/abs/2412.03934v1
- Date: Thu, 05 Dec 2024 07:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 20:43:01.936687
- Title: InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models
- Title(参考訳): InfiniCube:ワールドガイド映像モデルによるダイナミックな3D運転シーン生成
- Authors: Yifan Lu, Xuanchi Ren, Jiawei Yang, Tianchang Shen, Zhangjie Wu, Jun Gao, Yue Wang, Siheng Chen, Mike Chen, Sanja Fidler, Jiahui Huang,
- Abstract要約: InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
- 参考スコア(独自算出の注目度): 75.03495065452955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present InfiniCube, a scalable method for generating unbounded dynamic 3D driving scenes with high fidelity and controllability. Previous methods for scene generation either suffer from limited scales or lack geometric and appearance consistency along generated sequences. In contrast, we leverage the recent advancements in scalable 3D representation and video models to achieve large dynamic scene generation that allows flexible controls through HD maps, vehicle bounding boxes, and text descriptions. First, we construct a map-conditioned sparse-voxel-based 3D generative model to unleash its power for unbounded voxel world generation. Then, we re-purpose a video model and ground it on the voxel world through a set of carefully designed pixel-aligned guidance buffers, synthesizing a consistent appearance. Finally, we propose a fast feed-forward approach that employs both voxel and pixel branches to lift the dynamic videos to dynamic 3D Gaussians with controllable objects. Our method can generate controllable and realistic 3D driving scenes, and extensive experiments validate the effectiveness and superiority of our model.
- Abstract(参考訳): InfiniCubeは、非有界な動的3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
それまでのシーン生成方法は、限られたスケールに悩まされたり、生成されたシーケンスに沿って幾何学的および外観的整合性が欠如していた。
対照的に、スケーラブルな3D表現とビデオモデルの最近の進歩を活用して、HDマップ、車両バウンディングボックス、テキスト記述による柔軟な制御が可能な大規模な動的シーン生成を実現する。
まず,マップ条件付きスパースボクセルベース3次元生成モデルを構築し,そのパワーを非有界ボクセル世代に開放する。
そこで我々は,映像モデルを再構成し,一貫した外観を合成し,慎重にデザインされた画素アライメントバッファを通じてボクセルの世界に配置する。
最後に,VoxelとPixelを併用した高速フィードフォワード方式を提案し,動的映像を制御可能なオブジェクトを持つ動的3Dガウスへ持ち上げる。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
関連論文リスト
- CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。
粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。
以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文 参考訳(メタデータ) (2025-03-28T08:27:05Z) - I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。
提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-12T18:26:34Z) - WonderVerse: Extendable 3D Scene Generation with Video Generative Models [28.002645364066005]
拡張可能な3Dシーンを生成するフレームワークであるWonderVerseを紹介する。
WonderVerseは、ビデオ生成基盤モデルに埋め込まれた強力な世界レベルの事前情報を活用する。
様々な3D再構成手法と互換性があり、効率的かつ高品質な生成を可能にする。
論文 参考訳(メタデータ) (2025-03-12T08:44:51Z) - DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。