論文の概要: CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.22231v1
- Date: Fri, 28 Mar 2025 08:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:34.178344
- Title: CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving
- Title(参考訳): CoGen: 自律運転のための適応コンディショニングによる3D一貫性ビデオ生成
- Authors: Yishen Ji, Ziyue Zhu, Zhenxin Zhu, Kaixin Xiong, Ming Lu, Zhiqi Li, Lijun Zhou, Haiyang Sun, Bing Wang, Tong Lu,
- Abstract要約: 本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。
粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。
以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
- 参考スコア(独自算出の注目度): 25.156989992025625
- License:
- Abstract: Recent progress in driving video generation has shown significant potential for enhancing self-driving systems by providing scalable and controllable training data. Although pretrained state-of-the-art generation models, guided by 2D layout conditions (e.g., HD maps and bounding boxes), can produce photorealistic driving videos, achieving controllable multi-view videos with high 3D consistency remains a major challenge. To tackle this, we introduce a novel spatial adaptive generation framework, CoGen, which leverages advances in 3D generation to improve performance in two key aspects: (i) To ensure 3D consistency, we first generate high-quality, controllable 3D conditions that capture the geometry of driving scenes. By replacing coarse 2D conditions with these fine-grained 3D representations, our approach significantly enhances the spatial consistency of the generated videos. (ii) Additionally, we introduce a consistency adapter module to strengthen the robustness of the model to multi-condition control. The results demonstrate that this method excels in preserving geometric fidelity and visual realism, offering a reliable video generation solution for autonomous driving.
- Abstract(参考訳): ビデオ生成の最近の進歩は、スケーラブルで制御可能なトレーニングデータを提供することで、自動運転システムを強化する大きな可能性を示している。
2次元レイアウト条件(例えばHDマップやバウンディングボックス)でガイドされる事前訓練された最先端生成モデルは、フォトリアリスティックなドライビングビデオを生成することができるが、高い3D一貫性を持つ制御可能なマルチビュービデオを実現することは大きな課題である。
これを解決するために,空間適応型生成フレームワークCoGenを導入する。
(i)3Dの整合性を確保するため,まず,運転シーンの形状を捉えた高品質で制御可能な3D条件を生成する。
粗い2D条件を細粒度3D表現に置き換えることで,生成した映像の空間的一貫性を著しく向上させる。
さらに,マルチコンディション制御に対するモデルの堅牢性を高めるために,整合性アダプタモジュールを導入する。
その結果、この手法は、自律運転のための信頼性の高い映像生成ソリューションを提供することにより、幾何学的忠実度と視覚的リアリズムの保存に優れることを示した。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - HoloDrive: Holistic 2D-3D Multi-Modal Street Scene Generation for Autonomous Driving [29.327572707959916]
我々は,カメラ画像とLiDAR点雲を共同生成するフレームワークであるemphHoloDriveを提案する。
異種生成モデル間でBEV-to-Cameraおよびカメラ-to-BEV変換モジュールを用いる。
提案手法は,SOTA法に比べて,生成指標の点で顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-12-02T11:50:35Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior [97.694840981611]
本稿では,DreamControlという2段階の2Dリフトフレームワークを提案する。
制御ベースのスコア蒸留による微粒なオブジェクトを生成する。
DreamControlは、幾何学的一貫性とテクスチャ忠実度の両方の観点から、高品質な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2023-12-11T15:12:50Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。