論文の概要: Enhancing Monocular 3D Scene Completion with Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.00726v1
- Date: Sun, 02 Mar 2025 04:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:38.118051
- Title: Enhancing Monocular 3D Scene Completion with Diffusion Model
- Title(参考訳): 拡散モデルによる単眼3次元シーン補完の強化
- Authors: Changlin Song, Jiaqi Wang, Liyun Zhu, He Weng,
- Abstract要約: 3Dシーンの再構築は、仮想現実、ロボティクス、自動運転の応用に不可欠である。
従来の3Dガウススプラッティング技術は、最適な性能を達成するために複数の視点から撮影された画像に依存している。
1枚の画像から完全な3Dシーンを再構築するための新しいアプローチであるFlashDreamerを紹介する。
- 参考スコア(独自算出の注目度): 20.81599069390756
- License:
- Abstract: 3D scene reconstruction is essential for applications in virtual reality, robotics, and autonomous driving, enabling machines to understand and interact with complex environments. Traditional 3D Gaussian Splatting techniques rely on images captured from multiple viewpoints to achieve optimal performance, but this dependence limits their use in scenarios where only a single image is available. In this work, we introduce FlashDreamer, a novel approach for reconstructing a complete 3D scene from a single image, significantly reducing the need for multi-view inputs. Our approach leverages a pre-trained vision-language model to generate descriptive prompts for the scene, guiding a diffusion model to produce images from various perspectives, which are then fused to form a cohesive 3D reconstruction. Extensive experiments show that our method effectively and robustly expands single-image inputs into a comprehensive 3D scene, extending monocular 3D reconstruction capabilities without further training. Our code is available https://github.com/CharlieSong1999/FlashDreamer/tree/main.
- Abstract(参考訳): 3Dシーンの再構築は、仮想現実、ロボティクス、自律運転などの応用に不可欠であり、機械が複雑な環境を理解し、対話できるようにする。
従来の3Dガウススプラッティング技術は、最適なパフォーマンスを達成するために複数の視点から撮影された画像に依存するが、この依存は、1つの画像しか利用できないシナリオでの使用を制限する。
本稿では,単一の画像から完全な3Dシーンを再構成するための新しいアプローチであるFlashDreamerを紹介し,マルチビュー入力の必要性を大幅に低減する。
提案手法では,事前学習した視覚言語モデルを用いてシーンの表現的プロンプトを生成し,様々な視点から画像を生成する拡散モデルを導出する。
広汎な実験により,本手法は単一画像の入力を総合的な3Dシーンに効果的かつ堅牢に拡張し,さらなるトレーニングを行なわずにモノラル3D再構成能力を拡張した。
私たちのコードはhttps://github.com/CharlieSong1999/FlashDreamer/tree/mainで利用可能です。
関連論文リスト
- Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルから潜伏木を用いた大規模再構成モデルを導入し,シーンの3次元ガウススプラッティングを予測する。
プログレッシブトレーニング戦略により,映像潜時空間上での3D再構成モデルをトレーニングし,高品質,広スコープ,汎用的な3Dシーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。
CAT3Dは1分で3Dシーン全体を作成できる。
論文 参考訳(メタデータ) (2024-05-16T17:59:05Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。