論文の概要: Pragmatist: Multiview Conditional Diffusion Models for High-Fidelity 3D Reconstruction from Unposed Sparse Views
- arxiv url: http://arxiv.org/abs/2412.08412v2
- Date: Thu, 12 Dec 2024 05:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:51.505571
- Title: Pragmatist: Multiview Conditional Diffusion Models for High-Fidelity 3D Reconstruction from Unposed Sparse Views
- Title(参考訳): プラグマティスト:スパースビューからの高忠実度3次元再構成のための多視点条件拡散モデル
- Authors: Songchun Zhang, Chunhui Zhao,
- Abstract要約: スパースから3D構造を推定すると、制約のない性質のため、予期せぬ観測は困難である。
近年,データ駆動型入力から暗黙の表現を直接予測し,有望な結果を得る方法が提案されている。
本研究では,限られた入力ビューから完全な観測結果を生成し,再構成を容易にする条件付き新規なビュー合成を提案する。
- 参考スコア(独自算出の注目度): 23.94629999419033
- License:
- Abstract: Inferring 3D structures from sparse, unposed observations is challenging due to its unconstrained nature. Recent methods propose to predict implicit representations directly from unposed inputs in a data-driven manner, achieving promising results. However, these methods do not utilize geometric priors and cannot hallucinate the appearance of unseen regions, thus making it challenging to reconstruct fine geometric and textural details. To tackle this challenge, our key idea is to reformulate this ill-posed problem as conditional novel view synthesis, aiming to generate complete observations from limited input views to facilitate reconstruction. With complete observations, the poses of the input views can be easily recovered and further used to optimize the reconstructed object. To this end, we propose a novel pipeline Pragmatist. First, we generate a complete observation of the object via a multiview conditional diffusion model. Then, we use a feed-forward large reconstruction model to obtain the reconstructed mesh. To further improve the reconstruction quality, we recover the poses of input views by inverting the obtained 3D representations and further optimize the texture using detailed input views. Unlike previous approaches, our pipeline improves reconstruction by efficiently leveraging unposed inputs and generative priors, circumventing the direct resolution of highly ill-posed problems. Extensive experiments show that our approach achieves promising performance in several benchmarks.
- Abstract(参考訳): スパースから3D構造を推定すると、制約のない性質のため、予期せぬ観測は困難である。
近年,データ駆動型入力から暗黙の表現を直接予測し,有望な結果を得る方法が提案されている。
しかし、これらの手法は幾何的先行を利用せず、見えない領域の出現を幻覚させることができないため、微妙な幾何学的・テクスチュラルな詳細を再構築することは困難である。
この課題に対処するため、我々は、限られた入力ビューから完全な観測結果を生成し、再構成を容易にすることを目的として、条件付き新規ビュー合成として、この不適切な問題を再構築する。
完全な観察により、入力ビューのポーズを簡単に復元することができ、再構築されたオブジェクトを最適化するためにさらに使用される。
そこで我々は,新しいパイプライン・プラグマティストを提案する。
まず,多視点条件拡散モデルを用いて対象物の完全な観察を行う。
そして、フィードフォワード大再構成モデルを用いて、再構成メッシュを得る。
再現性を向上させるため,得られた3次元表現を反転させて入力ビューのポーズを復元し,詳細な入力ビューを用いてテクスチャを最適化する。
従来のアプローチとは異なり、パイプラインは、未提案の入力と生成先行を効率的に活用し、高度に不適切な問題の直接解決を回避し、再構築を改善する。
大規模な実験により,いくつかのベンチマークで有望な性能が得られた。
関連論文リスト
- Hyperbolic-constraint Point Cloud Reconstruction from Single RGB-D Images [19.23499128175523]
我々は3次元点雲再構成に双曲空間を導入し、低歪みの点雲における複雑な階層構造を表現・理解できるようにする。
我々のモデルは既存のモデルよりも優れており、アブレーション研究は我々のモデルとその構成要素の重要性を実証している。
論文 参考訳(メタデータ) (2024-12-12T08:27:39Z) - PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction [49.7580491592023]
PVP-Recon, 新規かつ効果的なスパースビュー表面再構成法を提案する。
PVP-Reconは3つのビューで初期表面の再構築を開始し、徐々に新しいビューを追加する。
このプログレッシブビュー計画の進捗は、神経SDFベースの再構築モジュールによってインターリーブされる。
論文 参考訳(メタデータ) (2024-09-09T10:06:34Z) - Black-Box Test-Time Shape REFINEment for Single View 3D Reconstruction [57.805334118057665]
文献中の任意のブラックボックス方式のパイプラインに容易に組み込むことができる後処理メッシュ改善ステップであるREFINEを提案する。
テスト時には、REFINEはメッシュ毎のネットワークインスタンスを最適化し、メッシュと所定のオブジェクトビュー間の一貫性を促進する。
論文 参考訳(メタデータ) (2021-08-23T03:28:47Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。
提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。
提案手法を2つの実験グループを用いて検証した。
論文 参考訳(メタデータ) (2021-01-23T01:50:26Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Reconstruct, Rasterize and Backprop: Dense shape and pose estimation
from a single image [14.9851111159799]
本稿では,1枚の画像から6-DoFポーズとともに高密度物体再構成を行うシステムを提案する。
我々は、カメラフレームの3D再構成でループを閉じるために、差別化可能なレンダリング(特にロボティクス)の最近の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T20:53:43Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。