論文の概要: SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations
- arxiv url: http://arxiv.org/abs/2505.11992v1
- Date: Sat, 17 May 2025 13:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.976238
- Title: SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations
- Title(参考訳): 空間工芸家:限定観測による映像拡散モデルの構築
- Authors: Songchun Zhang, Huiyao Xu, Sitong Guo, Zhongwei Xie, Pengwei Liu, Hujun Bao, Weiwei Xu, Changqing Zou,
- Abstract要約: この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
- 参考スコア(独自算出の注目度): 42.69229582451846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis (NVS) boosts immersive experiences in computer vision and graphics. Existing techniques, though progressed, rely on dense multi-view observations, restricting their application. This work takes on the challenge of reconstructing photorealistic 3D scenes from sparse or single-view inputs. We introduce SpatialCrafter, a framework that leverages the rich knowledge in video diffusion models to generate plausible additional observations, thereby alleviating reconstruction ambiguity. Through a trainable camera encoder and an epipolar attention mechanism for explicit geometric constraints, we achieve precise camera control and 3D consistency, further reinforced by a unified scale estimation strategy to handle scale discrepancies across datasets. Furthermore, by integrating monocular depth priors with semantic features in the video latent space, our framework directly regresses 3D Gaussian primitives and efficiently processes long-sequence features using a hybrid network structure. Extensive experiments show our method enhances sparse view reconstruction and restores the realistic appearance of 3D scenes.
- Abstract(参考訳): 新しいビュー合成(NVS)は、コンピュータビジョンとグラフィックスにおける没入感を高める。
既存の技術は進歩したが、密集した多視点観察に依存し、応用を制限する。
この研究は、スパースやシングルビューのインプットからフォトリアリスティックな3Dシーンを再構築する上での課題である。
本研究では,映像拡散モデルにおける豊富な知識を生かしたSpatialCrafterを紹介する。
トレーニング可能なカメラエンコーダと、明示的な幾何的制約に対するエピポーラアテンション機構により、正確なカメラ制御と3次元一貫性を実現し、さらにデータセット間のスケール不一致を処理するための統一的なスケール推定戦略により強化する。
さらに,ビデオ潜時空間における単眼深度を意味的特徴と統合することにより,本フレームワークは3次元ガウスプリミティブを直接回帰し,ハイブリッドネットワーク構造を用いて時系列特徴を効率的に処理する。
広汎な実験により,本手法はスパースビューの再現性を高め,リアルな3Dシーンの外観を復元する。
関連論文リスト
- ACT-R: Adaptive Camera Trajectories for 3D Reconstruction from Single Image [12.942796503696194]
多視点合成に適応的なビュープランニングを導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
本手法は, 未知のGSOデータセット上でのSOTAによる3次元再構成を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-13T05:31:59Z) - ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image [4.366356163044466]
既存の方法は、単一視点からの視野が狭い低一貫性の3Dシーンを再構成するためにしばしば制限される。
任意の単視点画像から没入型3Dシーンを再構成する2段階パイプラインであるExSceneを提案する。
ExSceneは単一ビュー入力のみを使用して一貫した没入的なシーン再構築を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:33:22Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [63.21396416244634]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。