論文の概要: Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors
- arxiv url: http://arxiv.org/abs/2411.15966v2
- Date: Sat, 05 Apr 2025 13:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:33:32.577979
- Title: Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors
- Title(参考訳): ガウスのシーン:深部拡散前駆体を用いた無球面スパースビューのシーン再構成
- Authors: Soumava Paul, Prakhar Kaushik, Alan Yuille,
- Abstract要約: 本研究では2次元画像の粗い集合から360度シーンのポーズなし(カメラパラメータなしで)再構成のための生成的アプローチを提案する。
画像から画像への生成モデルを提案し、3Dシーンの新たな画像レンダリングと深度マップにおいて、欠落した詳細を描き、アーティファクトを除去する。
- 参考スコア(独自算出の注目度): 5.407319151576265
- License:
- Abstract: In this work, we introduce a generative approach for pose-free (without camera parameters) reconstruction of 360 scenes from a sparse set of 2D images. Pose-free scene reconstruction from incomplete, pose-free observations is usually regularized with depth estimation or 3D foundational priors. While recent advances have enabled sparse-view reconstruction of large complex scenes (with high degree of foreground and background detail) with known camera poses using view-conditioned generative priors, these methods cannot be directly adapted for the pose-free setting when ground-truth poses are not available during evaluation. To address this, we propose an image-to-image generative model designed to inpaint missing details and remove artifacts in novel view renders and depth maps of a 3D scene. We introduce context and geometry conditioning using Feature-wise Linear Modulation (FiLM) modulation layers as a lightweight alternative to cross-attention and also propose a novel confidence measure for 3D Gaussian splat representations to allow for better detection of these artifacts. By progressively integrating these novel views in a Gaussian-SLAM-inspired process, we achieve a multi-view-consistent 3D representation. Evaluations on the MipNeRF360 and DL3DV-10K benchmark datasets demonstrate that our method surpasses existing pose-free techniques and performs competitively with state-of-the-art posed (precomputed camera parameters are given) reconstruction methods in complex 360 scenes.
- Abstract(参考訳): 本研究では,2次元画像のスパース集合から360シーンのポーズなし(カメラパラメータなしで)再構成を行うための生成的アプローチを提案する。
不完全でポーズなしな観察からの無作為なシーン再構成は、通常、深さ推定や3Dの基礎的な先行とともに正規化される。
近年の進歩により、ビューコンディショニング・ジェネレーティブ・プレジェクティブ・プレジェクティブ・プレジェクティブを用いて、既知のカメラポーズを用いて、大きな複雑なシーン(高精細なフォアグラウンドと背景のディテール)のスパースビュー再構築が可能になったが、これらの手法は、評価中にグラウンドトルース・ポーズが利用できない場合、ポーズフリー・セッティングに直接適用することはできない。
そこで本研究では,画像から画像への生成モデルを提案する。
特徴量線形変調(FiLM)変調層を用いたコンテキストおよび幾何学的条件付けを相互注意の軽量な代替として導入し,これらのアーティファクトのより優れた検出を可能にするために,3次元ガウスのスプラット表現に対する新しい信頼度尺度を提案する。
ガウス-SLAMにインスパイアされたプロセスでこれらの新しいビューを段階的に統合することにより、多視点の3D表現を実現する。
MipNeRF360 と DL3DV-10K ベンチマークによる評価は,提案手法が既存のポーズフリー手法を超越し,複雑な360 シーンにおける最先端のポーズ(事前のカメラパラメータ)再構成手法と競合することを示す。
関連論文リスト
- FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。
FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。
テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors [34.91966359570867]
スパースビューの再構築は本質的に不適切であり、制約を受けていない。
本稿では,限られた画像から高品質な再構成を生成できるLM-Gaussianを紹介する。
提案手法は,従来の3DGS法と比較してデータ取得要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-09-05T12:09:02Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - GS2Mesh: Surface Reconstruction from Gaussian Splatting via Novel Stereo Views [9.175560202201819]
3Dガウススプラッティング(3DGS)はシーンを正確に表現するための効率的なアプローチとして登場した。
本稿では,ノイズの多い3DGS表現とスムーズな3Dメッシュ表現とのギャップを埋めるための新しい手法を提案する。
私たちは、オリジナルのトレーニングポーズに対応するステレオアライメントされたイメージのペアをレンダリングし、ペアをステレオモデルに入力して深度プロファイルを取得し、最後にすべてのプロファイルを融合して単一のメッシュを得る。
論文 参考訳(メタデータ) (2024-04-02T10:13:18Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Enhancement of Novel View Synthesis Using Omnidirectional Image
Completion [61.78187618370681]
ニューラルレイディアンス場(NeRF)に基づく1枚の360度RGB-D画像から新しいビューを合成する方法を提案する。
実験により,提案手法は実世界と実世界の両方でシーンの特徴を保ちながら,可塑性な新規なビューを合成できることが実証された。
論文 参考訳(メタデータ) (2022-03-18T13:49:25Z) - ERF: Explicit Radiance Field Reconstruction From Scratch [12.254150867994163]
センサのポーズとキャリブレーションでシーンの一連の画像を処理し,フォトリアルなデジタルモデルを推定する,新しい高密度3次元再構成手法を提案する。
重要な革新の1つは、根底にある体積表現が完全に明示的であることである。
我々は,本手法が汎用的かつ実用的であることを示し,撮影に高度に制御された実験室の設置は必要とせず,多種多様な物体でシーンを再構築することができることを示した。
論文 参考訳(メタデータ) (2022-02-28T19:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。