論文の概要: Predicting 3D structure by latent posterior sampling
- arxiv url: http://arxiv.org/abs/2605.10830v2
- Date: Sun, 17 May 2026 07:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.260776
- Title: Predicting 3D structure by latent posterior sampling
- Title(参考訳): 潜時後方サンプリングによる3次元構造予測
- Authors: Azmi Haider, Dan Rosenbaum,
- Abstract要約: 本研究では,NeRFに基づく3次元シーンの表現と,拡散モデルを用いた確率的モデリングと推論を組み合わせた手法を提案する。
提案手法は,各タスクに係わる様々な不確実性のレベルをモデル化できることを示す。
実験により, 様々な種類の観測から3次元構造を正確に予測できる包括的手法が得られた。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable achievements of both generative models of 2D images and neural field representations for 3D scenes present a compelling opportunity to integrate the strengths of both approaches. In this work, we propose a methodology that combines a NeRF-based representation of 3D scenes with probabilistic modeling and reasoning using diffusion models. We view 3D reconstruction as a perception problem with inherent uncertainty that can thereby benefit from probabilistic inference methods. The core idea is to represent the 3D scene as a stochastic latent variable for which we can learn a prior and use it to perform posterior inference given a set of observations. We formulate posterior sampling using the score-based inference method of diffusion models in conjunction with a likelihood term computed from a reconstruction model that includes volumetric rendering. We train the model using a two-stage process: first we train the reconstruction model while auto-decoding the latent representations for a dataset of 3D scenes, and then we train the prior over the latents using a diffusion model. By using the model to generate samples from the posterior we demonstrate that various 3D reconstruction tasks can be performed, differing by the type of observation used as inputs. We showcase reconstruction from single-view, multi-view, noisy images, sparse pixels, and sparse depth data. These observations vary in the amount of information they provide for the scene and we show that our method can model the varying levels of inherent uncertainty associated with each task. Our experiments illustrate that this approach yields a comprehensive method capable of accurately predicting 3D structure from diverse types of observations.
- Abstract(参考訳): 2次元画像の生成モデルと3次元シーンのニューラルフィールド表現の両方の顕著な成果は、両方のアプローチの強みを統合する魅力的な機会である。
本研究では,NeRFに基づく3次元シーンの表現と,拡散モデルを用いた確率論的モデリングと推論を組み合わせた手法を提案する。
我々は3次元再構成を,確率的推論手法の利点を享受できる固有の不確実性を伴う知覚問題とみなす。
中心となる考え方は、3Dシーンを確率的潜在変数として表現し、事前学習とそれを用いて観測セットから後部推論を行うことである。
本研究では,拡散モデルのスコアベース推定法とボリュームレンダリングを含む再構成モデルから計算した確率項を併用して,後部サンプリングを定式化する。
まず、3Dシーンのデータセットの潜在表現を自動デコードしながら再構成モデルをトレーニングし、次に拡散モデルを用いて潜在表現をトレーニングする。
モデルを用いて後部からサンプルを生成することにより,様々な3次元再構成作業が可能であり,入力として使用される観察の種類によって異なることを示す。
単一ビュー,マルチビュー,ノイズ画像,スパースピクセル,スパース深度データから再構成を行った。
これらの結果から,各作業に係わる不確実性のレベルをモデル化できることが示唆された。
実験により, 様々な種類の観測から3次元構造を正確に予測できる包括的手法が得られた。
関連論文リスト
- UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.34221167200259]
従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文 参考訳(メタデータ) (2025-01-16T08:00:17Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Diffusion with Forward Models: Solving Stochastic Inverse Problems
Without Direct Supervision [76.32860119056964]
本稿では,直接観測されない信号の分布からサンプルを学習する拡散確率モデルを提案する。
コンピュータビジョンの課題3つの課題に対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-20T17:53:00Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - SparseFusion: Distilling View-conditioned Diffusion for 3D
Reconstruction [26.165314261806603]
ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。
既存のアプローチは、通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Shape from Projections via Differentiable Forward Projector for Computed
Tomography [4.304380400377787]
本稿では,3次元メッシュのフォワードモデルと最適化のギャップを埋める3次元メッシュの微分可能フォワードモデルを提案する。
提案した前方モデルを用いて,プロジェクションから直接3次元形状を再構成する。
単目的問題に対する実験結果から,提案手法はノイズシミュレーションデータ上で従来のボクセル法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-06-29T15:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。