論文の概要: Dream-to-Recon: Monocular 3D Reconstruction with Diffusion-Depth Distillation from Single Images
- arxiv url: http://arxiv.org/abs/2508.02323v1
- Date: Mon, 04 Aug 2025 11:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.316326
- Title: Dream-to-Recon: Monocular 3D Reconstruction with Diffusion-Depth Distillation from Single Images
- Title(参考訳): Dream-to-Recon:単一画像からの拡散深度蒸留による単分子3次元再構成
- Authors: Philipp Wulff, Felix Wimbauer, Dominik Muhle, Daniel Cremers,
- Abstract要約: 本研究では,事前学習した2次元拡散モデルと深度予測モデルを用いて,単一画像から合成シーン形状を生成することを提案する。
挑戦的なKITTI-360とデータセットに関する実験は、我々の手法が最先端のベースラインと一致しているか、あるいは性能を上回っていることを示している。
- 参考スコア(独自算出の注目度): 39.08243715525956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric scene reconstruction from a single image is crucial for a broad range of applications like autonomous driving and robotics. Recent volumetric reconstruction methods achieve impressive results, but generally require expensive 3D ground truth or multi-view supervision. We propose to leverage pre-trained 2D diffusion models and depth prediction models to generate synthetic scene geometry from a single image. This can then be used to distill a feed-forward scene reconstruction model. Our experiments on the challenging KITTI-360 and Waymo datasets demonstrate that our method matches or outperforms state-of-the-art baselines that use multi-view supervision, and offers unique advantages, for example regarding dynamic scenes.
- Abstract(参考訳): 単一画像からのボリュームシーンの再構築は、自動運転やロボット工学といった幅広い応用に不可欠である。
最近のボリューム再構成手法は印象的な結果を得るが、一般的には高価な3Dグラウンドの真実やマルチビューの監督を必要とする。
本研究では,事前学習した2次元拡散モデルと深度予測モデルを用いて,単一画像から合成シーン形状を生成することを提案する。
これにより、フィードフォワードシーン再構築モデルを蒸留することができる。
挑戦的なKITTI-360とWaymoデータセットに関する我々の実験は、我々の手法がマルチビューの監視を利用する最先端のベースラインと一致または性能を向上し、ダイナミックなシーンなど、ユニークなアドバンテージを提供することを示した。
関連論文リスト
- DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos [33.12653115668027]
本手法は,幾何整合性を保証する多面体画像(MPI)を生成する。
提案手法は, 1 つのデノナイジングプロセスを通じて, 最終的な出力を直接生成する。
単眼ビデオから効果的に学習するために、ターゲットまたは基準カメラ空間で出力MPIをランダムに再構成するトレーニング機構を導入する。
論文 参考訳(メタデータ) (2025-04-27T08:56:02Z) - Enhancing Monocular 3D Scene Completion with Diffusion Model [20.81599069390756]
3Dシーンの再構築は、仮想現実、ロボティクス、自動運転の応用に不可欠である。
従来の3Dガウススプラッティング技術は、最適な性能を達成するために複数の視点から撮影された画像に依存している。
1枚の画像から完全な3Dシーンを再構築するための新しいアプローチであるFlashDreamerを紹介する。
論文 参考訳(メタデータ) (2025-03-02T04:36:57Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。