論文の概要: UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation
- arxiv url: http://arxiv.org/abs/2411.19292v2
- Date: Tue, 25 Mar 2025 16:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 21:56:47.128442
- Title: UrbanCAD: Towards Highly Controllable and Photorealistic 3D Vehicles for Urban Scene Simulation
- Title(参考訳): 都市CAD:都市景観シミュレーションのための高可制御・光リアルな3D車両を目指して
- Authors: Yichong Lu, Yichi Cai, Shangzhan Zhang, Hongyu Zhou, Haoji Hu, Huimin Yu, Andreas Geiger, Yiyi Liao,
- Abstract要約: UrbanCADは、1つの都市画像から高度に制御可能で光リアルな3D車両のデジタルツインを生成するフレームワークである。
これにより、車両のリアルな360度レンダリング、背景挿入、物質移動、リライト、部品操作が可能になる。
- 参考スコア(独自算出の注目度): 46.47972242593905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photorealistic 3D vehicle models with high controllability are essential for autonomous driving simulation and data augmentation. While handcrafted CAD models provide flexible controllability, free CAD libraries often lack the high-quality materials necessary for photorealistic rendering. Conversely, reconstructed 3D models offer high-fidelity rendering but lack controllability. In this work, we introduce UrbanCAD, a framework that generates highly controllable and photorealistic 3D vehicle digital twins from a single urban image, leveraging a large collection of free 3D CAD models and handcrafted materials. To achieve this, we propose a novel pipeline that follows a retrieval-optimization manner, adapting to observational data while preserving fine-grained expert-designed priors for both geometry and material. This enables vehicles' realistic 360-degree rendering, background insertion, material transfer, relighting, and component manipulation. Furthermore, given multi-view background perspective and fisheye images, we approximate environment lighting using fisheye images and reconstruct the background with 3DGS, enabling the photorealistic insertion of optimized CAD models into rendered novel view backgrounds. Experimental results demonstrate that UrbanCAD outperforms baselines in terms of photorealism. Additionally, we show that various perception models maintain their accuracy when evaluated on UrbanCAD with in-distribution configurations but degrade when applied to realistic out-of-distribution data generated by our method. This suggests that UrbanCAD is a significant advancement in creating photorealistic, safety-critical driving scenarios for downstream applications.
- Abstract(参考訳): 自律走行シミュレーションとデータ拡張には,高可制御性光現実性3次元車両モデルが不可欠である。
手作りCADモデルはフレキシブルな制御性を提供するが、無料CADライブラリはフォトリアリスティックレンダリングに必要な高品質な素材を欠いていることが多い。
逆に再構成された3Dモデルは高忠実なレンダリングを提供するが、制御性に欠ける。
本研究では,自由な3次元CADモデルと手作り材料を多用した,高度に制御可能な光リアルな3次元車両用デジタルツインを1つの都市画像から生成するフレームワークであるUrbanCADを紹介する。
これを実現するために,我々は,詳細な専門家設計の事前情報を保持しつつ,観測データに適応し,探索最適化の手法に従う新しいパイプラインを提案する。
これにより、車両のリアルな360度レンダリング、背景挿入、物質移動、リライト、部品操作が可能になる。
さらに,多視点背景像と魚眼画像から,魚眼画像を用いて環境照明を近似し,背景を3DGSで再構成することにより,最適化CADモデルを新たな背景画像に写実的に挿入することを可能にする。
実験の結果,UrbanCADはフォトリアリズムにおいてベースラインよりも優れていた。
さらに,UrbanCADにおいて分布内構成で評価すると,実際の分布外データに適用した場合は劣化するが,様々な知覚モデルが精度を保っていることを示す。
このことは、UrbanCADが、下流アプリケーションのためのフォトリアリスティックで安全クリティカルな運転シナリオを作成する上で、重要な進歩であることを示している。
関連論文リスト
- CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。
生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。
本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image [34.47379913018661]
本稿では,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。
我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。
提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:10:21Z) - EvaSurf: Efficient View-Aware Implicit Textured Surface Reconstruction [53.28220984270622]
3次元再構成法はリアルタイムに3次元整合性のある高忠実度結果を生成する。
提案手法は,合成と実世界の両方のデータセット上で,高品質な外観と正確なメッシュを再構築することができる。
我々の方法は1つのGPUを使ってたった1~2時間でトレーニングでき、40FPS(Frames per second)以上のモバイルデバイス上で実行することができる。
論文 参考訳(メタデータ) (2023-11-16T11:30:56Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - CAD-Deform: Deformable Fitting of CAD Models to 3D Scans [30.451330075135076]
本稿では,検索したCADモデルを用いて,より高精度なCAD-to-Scanマッチングを実現するCAD-Deformを提案する。
一連の実験により,本手法はより厳密なスキャン・トゥ・CAD適合性を実現し,スキャンした実環境のより正確なデジタル複製を可能にした。
論文 参考訳(メタデータ) (2020-07-23T12:30:20Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z) - Learning Neural Light Transport [28.9247002210861]
ニューラルネットワークを用いた静的・動的3次元シーンにおける光輸送の学習手法を提案する。
我々のモデルは静的および動的シーンのフォトリアリスティックなレンダリングを生成することができる。
論文 参考訳(メタデータ) (2020-06-05T13:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。