論文の概要: Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images
- arxiv url: http://arxiv.org/abs/2412.19518v1
- Date: Fri, 27 Dec 2024 08:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:09.738692
- Title: Dust to Tower: Coarse-to-Fine Photo-Realistic Scene Reconstruction from Sparse Uncalibrated Images
- Title(参考訳): ダスト・トゥ・タワー:スパース・アンキャリブレーション画像による粗大な写真とリアルなシーンの再構築
- Authors: Xudong Cai, Yongcai Wang, Zhaoxin Fan, Deng Haoran, Shuo Wang, Wanting Li, Deying Li, Lun Luo, Minhang Wang, Jintao Xu,
- Abstract要約: Dust to Tower (D2T)は、3DGSと画像をスパース画像とアンキャリブレーション画像から同時にポーズする効率的なフレームワークである。
我々のキーとなる考え方は、まずまず効率よく粗いモデルを構築し、その後、新しい視点で歪んだり塗られたりすることでそれを洗練することである。
実験およびアブレーション実験は、D2Tとその設計選択の有効性を示す。
- 参考スコア(独自算出の注目度): 11.1039786318131
- License:
- Abstract: Photo-realistic scene reconstruction from sparse-view, uncalibrated images is highly required in practice. Although some successes have been made, existing methods are either Sparse-View but require accurate camera parameters (i.e., intrinsic and extrinsic), or SfM-free but need densely captured images. To combine the advantages of both methods while addressing their respective weaknesses, we propose Dust to Tower (D2T), an accurate and efficient coarse-to-fine framework to optimize 3DGS and image poses simultaneously from sparse and uncalibrated images. Our key idea is to first construct a coarse model efficiently and subsequently refine it using warped and inpainted images at novel viewpoints. To do this, we first introduce a Coarse Construction Module (CCM) which exploits a fast Multi-View Stereo model to initialize a 3D Gaussian Splatting (3DGS) and recover initial camera poses. To refine the 3D model at novel viewpoints, we propose a Confidence Aware Depth Alignment (CADA) module to refine the coarse depth maps by aligning their confident parts with estimated depths by a Mono-depth model. Then, a Warped Image-Guided Inpainting (WIGI) module is proposed to warp the training images to novel viewpoints by the refined depth maps, and inpainting is applied to fulfill the ``holes" in the warped images caused by view-direction changes, providing high-quality supervision to further optimize the 3D model and the camera poses. Extensive experiments and ablation studies demonstrate the validity of D2T and its design choices, achieving state-of-the-art performance in both tasks of novel view synthesis and pose estimation while keeping high efficiency. Codes will be publicly available.
- Abstract(参考訳): スパースビュー・アンキャリブレーション画像からの写実的シーン再構成は,実際に必要不可欠である。
成功例はいくつかあるが、既存の方法はスパースビューであるが、正確なカメラパラメータ(内在的、外在的)を必要とする。
それぞれの弱点に対処しながら両手法の利点を組み合わせるために、3DGSと画像ポーズをスパース画像とアンキャリブレーション画像から同時に最適化する高精度かつ効率的な粗大なフレームワークであるDust to Tower (D2T)を提案する。
我々のキーとなる考え方は、まずまず効率よく粗いモデルを構築し、その後、新しい視点で歪んだり塗られたりすることでそれを洗練することである。
そこで我々は,まず,高速なマルチビューステレオモデルを用いて3次元ガウススプラッティング(3DGS)を初期化し,初期カメラのポーズを復元する粗い構成モジュール(CCM)を導入する。
新しい視点で3Dモデルを洗練するために,モノディープスモデルにより信頼度を推定深度と整合させて粗い深度マップを洗練するための信頼性認識深度アライメント(CADA)モジュールを提案する。
次に,Warped Image-Guided Inpainting (WIGI) モジュールを提案し,3Dモデルとカメラのポーズをさらに最適化するための高品質な監視を提供するとともに,画像の「ホールズ」を満たすため,改良された深度マップにより新たな視点にトレーニングイメージをワープする。
広汎な実験とアブレーション研究は、D2Tとその設計選択の有効性を示し、新しいビュー合成のタスクとポーズ推定の両方において、高い効率を維持しながら最先端の性能を達成する。
コードは公開されます。
関連論文リスト
- FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from
Sparse Image Ensemble [72.3681707384754]
Hi-LASSIEは、ユーザーが定義した形状やスケルトンテンプレートを使わずに、野生の20~30のオンライン画像から3Dで再現する。
まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。
第二に、各インスタンスに忠実に適合する新しいインスタンス固有の最適化戦略により、形状再構成を改善する。
論文 参考訳(メタデータ) (2022-12-21T14:31:33Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - 3D Magic Mirror: Clothing Reconstruction from a Single Image via a
Causal Perspective [96.65476492200648]
本研究は, 自己監督型3D衣料の再構築手法について検討することを目的とする。
1枚の2D画像から人間の衣服の形状やテクスチャを復元する。
論文 参考訳(メタデータ) (2022-04-27T17:46:55Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。