Fugu-MT 論文翻訳(概要): MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes

論文の概要: MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes

arxiv url: http://arxiv.org/abs/2405.14475v2
Date: Sat, 12 Oct 2024 03:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.626956
Title: MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes
Title（参考訳）: MagicDrive3D:ストリートシーンにおける任意のビューレンダリングのためのコントロール可能な3D生成
Authors: Ruiyuan Gao, Kai Chen, Zhihao Li, Lanqing Hong, Zhenguo Li, Qiang Xu,
Abstract要約: 制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。以上の結果から, 自律運転シミュレーションなどにおけるトランスフォーメーションの可能性を示すとともに, フレームワークの優れた性能を示す。
参考スコア（独自算出の注目度）: 72.02827211293736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While controllable generative models for images and videos have achieved remarkable success, high-quality models for 3D scenes, particularly in unbounded scenarios like autonomous driving, remain underdeveloped due to high data acquisition costs. In this paper, we introduce MagicDrive3D, a novel pipeline for controllable 3D street scene generation that supports multi-condition control, including BEV maps, 3D objects, and text descriptions. Unlike previous methods that reconstruct before training the generative models, MagicDrive3D first trains a video generation model and then reconstructs from the generated data. This innovative approach enables easily controllable generation and static scene acquisition, resulting in high-quality scene reconstruction. To address the minor errors in generated content, we propose deformable Gaussian splatting with monocular depth initialization and appearance modeling to manage exposure discrepancies across viewpoints. Validated on the nuScenes dataset, MagicDrive3D generates diverse, high-quality 3D driving scenes that support any-view rendering and enhance downstream tasks like BEV segmentation. Our results demonstrate the framework's superior performance, showcasing its transformative potential for autonomous driving simulation and beyond.
Abstract（参考訳）: 画像やビデオの制御可能な生成モデルは非常に成功したが、3Dシーンの高品質なモデル、特に自動運転のような非有界なシナリオでは、高いデータ取得コストのために未開発のままである。本稿では,BEVマップ,3Dオブジェクト,テキスト記述を含む多条件制御をサポートする,制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。この革新的なアプローチは、容易に制御可能な生成と静的なシーン取得を可能にし、高品質なシーン再構築を実現する。生成したコンテンツの小さな誤りに対処するため,一眼深度初期化と外観モデルを用いた変形可能なガウススプラッティングを提案し,視点間の露光差を管理する。 nuScenesデータセットで検証されたMagicDrive3Dは、あらゆるビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する、多様な高品質な3Dドライブシーンを生成する。本研究の結果は, 自律運転シミュレーション等の変貌可能性を示すとともに, 優れた性能を示すものである。

関連論文リスト

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation [29.389246008057473]
2Dは、新規な視点合成を前に、運動を駆動的視点に厳密に結合する。 3DiMoは、予め訓練されたビデオジェネレータでモーションエンコーダを訓練し、駆動フレームをコンパクトでビューに依存しないモーショントークンに蒸留する。 3DiMoは、フレキシブルでテキスト駆動のカメラコントロールで運転動作を忠実に再現する。
論文参考訳（メタデータ） (2026-02-03T17:59:09Z)
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-09-23T17:58:01Z)
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文参考訳（メタデータ） (2025-03-28T08:27:05Z)
Controllable 3D Outdoor Scene Generation via Scene Graphs [74.40967075159071]
本研究では,スパースシーングラフを高密度なBEV埋め込みマップに変換するインタラクティブシステムを開発した。推論中は、ユーザーは簡単にシーングラフを作成したり変更したりして、大規模な屋外シーンを生成することができる。実験結果から,提案手法は入力シーングラフと密に一致した高品質な3次元都市景観を連続的に生成することが示された。
論文参考訳（メタデータ） (2025-03-10T10:26:08Z)
DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文参考訳（メタデータ） (2024-12-31T18:59:57Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文参考訳（メタデータ） (2024-12-09T17:44:56Z)
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文参考訳（メタデータ） (2024-12-05T07:32:20Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文参考訳（メタデータ） (2023-11-15T18:58:41Z)
MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文参考訳（メタデータ） (2023-10-04T06:14:06Z)
GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文参考訳（メタデータ） (2023-04-04T23:41:20Z)
3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文参考訳（メタデータ） (2023-03-18T05:51:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。