論文の概要: SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
- arxiv url: http://arxiv.org/abs/2408.10195v1
- Date: Mon, 19 Aug 2024 17:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:13:19.363683
- Title: SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
- Title(参考訳): SpaRP: スパースビューからの高速3次元オブジェクト再構成とポース推定
- Authors: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu,
- Abstract要約: 本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
- 参考スコア(独自算出の注目度): 36.02533658048349
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.
- Abstract(参考訳): オープンワールドの3D世代は、最近かなりの注目を集めている。
多くの単一画像から3Dの手法は視覚的に魅力的な結果をもたらすが、十分な制御性がなく、ユーザの期待に合わない幻覚領域を生成する傾向がある。
本稿では,1つのオブジェクトの1つまたは数つの未提示2次元画像からなり,ほとんどあるいは全く重複しない重要なシナリオについて考察する。
本稿では,3次元テクスチャメッシュを再構成し,これらのスパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるスパRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
拡散モデルは、カメラポーズの代理表現と、既知のポーズの下でのオブジェクトのマルチビューイメージを協調的に予測し、入力されたスパースビューから全ての情報を統合するように訓練される。
これらの予測を3D再構成とポーズ推定に利用し、再構成された3Dモデルを用いて、入力ビューのカメラポーズをさらに洗練することができる。
3つのデータセットに対する広範囲な実験を通して,本手法は3次元再構成品質においてベースライン法を著しく上回り,予測精度が向上するだけでなく,高い効率性を示すことを示した。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
プロジェクトページ: https://chaoxu.xyz/sparp.com
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。