論文の概要: iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse
Views
- arxiv url: http://arxiv.org/abs/2312.17250v1
- Date: Thu, 28 Dec 2023 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:36:00.510784
- Title: iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse
Views
- Title(参考訳): ifusion: スパースビューからのポーズフリー再構成のための逆拡散
- Authors: Chin-Hsuan Wu, Yen-Chun Chen, Bolivar Solarte, Lu Yuan, Min Sun
- Abstract要約: iFusionは、未知のカメラポーズを持つ2つのビューのみを必要とする、新しい3Dオブジェクト再構成フレームワークである。
我々は,様々な物体の形状や外観に関する暗黙の知識を組み込んだ,事前学習されたビュー合成拡散モデルを利用する。
ポーズ推定と新しいビュー合成の両方において、実験は強い性能を示す。
- 参考スコア(独自算出の注目度): 61.707755434165335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present iFusion, a novel 3D object reconstruction framework that requires
only two views with unknown camera poses. While single-view reconstruction
yields visually appealing results, it can deviate significantly from the actual
object, especially on unseen sides. Additional views improve reconstruction
fidelity but necessitate known camera poses. However, assuming the availability
of pose may be unrealistic, and existing pose estimators fail in sparse view
scenarios. To address this, we harness a pre-trained novel view synthesis
diffusion model, which embeds implicit knowledge about the geometry and
appearance of diverse objects. Our strategy unfolds in three steps: (1) We
invert the diffusion model for camera pose estimation instead of synthesizing
novel views. (2) The diffusion model is fine-tuned using provided views and
estimated poses, turned into a novel view synthesizer tailored for the target
object. (3) Leveraging registered views and the fine-tuned diffusion model, we
reconstruct the 3D object. Experiments demonstrate strong performance in both
pose estimation and novel view synthesis. Moreover, iFusion seamlessly
integrates with various reconstruction methods and enhances them.
- Abstract(参考訳): iFusionは、未知のカメラポーズを持つ2つのビューのみを必要とする新しい3Dオブジェクト再構成フレームワークである。
単一視点の再構成は視覚的に魅力的な結果をもたらすが、実際の物体、特に目に見えない側から大きくずれることがある。
さらなるビューは、再構築の忠実さを改善するが、既知のカメラのポーズを必要とする。
しかし、ポーズの可用性が非現実的であると仮定すると、既存のポーズ推定器はスパースビューシナリオで失敗する。
これを解決するために,様々な物体の形状や外観に関する暗黙の知識を組み込んだ,事前学習された新規ビュー合成拡散モデルを利用する。
1)新しい視点を合成するのではなく,カメラポーズ推定のための拡散モデルを逆転させる。
2) 拡散モデルは, 得られたビューと推定ポーズを用いて微調整され, 対象物に適した新しいビューシンセサイザーとなる。
3) 登録ビューと微調整拡散モデルを利用して, 3次元オブジェクトを再構成した。
実験はポーズ推定と新しい視点合成の両方において強い性能を示す。
さらに、iFusionは様々な再構築手法をシームレスに統合し、強化する。
関連論文リスト
- SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - FSViewFusion: Few-Shots View Generation of Novel Objects [75.81872204650807]
本研究では,3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルを提案する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
ビューの概念は、ビューが学習された元のオブジェクトの識別に関係なく、アンタングル化され、新しいオブジェクトに転送可能であることを確認します。
論文 参考訳(メタデータ) (2024-03-11T02:59:30Z) - Extreme Two-View Geometry From Object Poses with Diffusion Models [21.16779160086591]
オブジェクト先行のパワーを利用して、極端な視点変化に直面した2次元幾何学を正確に決定する。
実験では, 大局的な視点変化に対して, 突如として頑健さと弾力性を示した。
論文 参考訳(メタデータ) (2024-02-05T08:18:47Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models [33.760292331843104]
単一のイメージからオブジェクトの新たなビューを生成することは、難しい作業です。
近年,拡散に基づくビュー合成法は大きな進歩を見せている。
本稿では,事前学習したビデオ拡散モデルを用いた簡単な方法を示す。
論文 参考訳(メタデータ) (2023-12-03T06:50:15Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。