論文の概要: LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding
- arxiv url: http://arxiv.org/abs/2508.19204v1
- Date: Tue, 26 Aug 2025 17:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.928627
- Title: LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding
- Title(参考訳): LSD-3D:幾何接地による大規模3次元運転シーン生成
- Authors: Julian Ost, Andrea Ramazzina, Amogh Joshi, Maximilian Bömer, Mario Bijelic, Felix Heide,
- Abstract要約: 本稿では,大規模3次元運転シーンを正確な形状で直接生成する手法を提案する。
提案手法は, 学習した2次元画像の先行画像からのスコアの蒸留と, プロキシ幾何の生成と環境表現を組み合わせたものである。
このアプローチは高い制御性を実現し、高速誘導幾何と高忠実度テクスチャと構造を実現する。
- 参考スコア(独自算出の注目度): 34.74478301165912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale scene data is essential for training and testing in robot learning. Neural reconstruction methods have promised the capability of reconstructing large physically-grounded outdoor scenes from captured sensor data. However, these methods have baked-in static environments and only allow for limited scene control -- they are functionally constrained in scene and trajectory diversity by the captures from which they are reconstructed. In contrast, generating driving data with recent image or video diffusion models offers control, however, at the cost of geometry grounding and causality. In this work, we aim to bridge this gap and present a method that directly generates large-scale 3D driving scenes with accurate geometry, allowing for causal novel view synthesis with object permanence and explicit 3D geometry estimation. The proposed method combines the generation of a proxy geometry and environment representation with score distillation from learned 2D image priors. We find that this approach allows for high controllability, enabling the prompt-guided geometry and high-fidelity texture and structure that can be conditioned on map layouts -- producing realistic and geometrically consistent 3D generations of complex driving scenes.
- Abstract(参考訳): 大規模シーンデータは、ロボット学習のトレーニングとテストに不可欠である。
ニューラルリコンストラクション法は、キャプチャーされたセンサーデータから、大きな物理的屋外シーンを再構築できることを約束している。
しかし、これらのメソッドには静的環境が組み込まれており、限られたシーン制御しかできない。
対照的に、最近の画像やビデオ拡散モデルによる駆動データの生成は、幾何接地と因果関係のコストで制御を提供する。
本研究では,このギャップを埋めて,大規模3次元走行シーンを正確な形状で直接生成する手法を提案する。
提案手法は, 学習した2次元画像の先行画像からのスコアの蒸留と, プロキシ幾何の生成と環境表現を組み合わせたものである。
このアプローチは高い制御性を実現し、地図レイアウトで条件付け可能な、素早く誘導される幾何学と高忠実なテクスチャと構造を可能にします。
関連論文リスト
- Constructing a 3D Town from a Single Image [23.231661811526955]
3DTownは、単一のトップダウンビューからリアルで一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
以上の結果から,1枚の画像から高品質な3Dタウンジェネレーションが実現可能であることを示す。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Incorporating dense metric depth into neural 3D representations for view synthesis and relighting [25.028859317188395]
ロボット応用では、密度の深い距離の深さをステレオで直接測定することができ、照明を制御できる。
本研究は,ニューラルネットワークによる3次元表現のトレーニングに高密度な距離深度を組み込む手法を実証する。
また、パイプラインに必要なデータを取得し、リライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。
論文 参考訳(メタデータ) (2024-09-04T20:21:13Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。
私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文 参考訳(メタデータ) (2023-10-04T06:14:06Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。