論文の概要: Few-View Object Reconstruction with Unknown Categories and Camera Poses
- arxiv url: http://arxiv.org/abs/2212.04492v2
- Date: Tue, 12 Sep 2023 19:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 18:32:36.513796
- Title: Few-View Object Reconstruction with Unknown Categories and Camera Poses
- Title(参考訳): 未知のカテゴリとカメラポーズを用いた少数視点物体再構成
- Authors: Hanwen Jiang, Zhenyu Jiang, Kristen Grauman and Yuke Zhu
- Abstract要約: この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
- 参考スコア(独自算出の注目度): 80.0820650171476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While object reconstruction has made great strides in recent years, current
methods typically require densely captured images and/or known camera poses,
and generalize poorly to novel object categories. To step toward object
reconstruction in the wild, this work explores reconstructing general
real-world objects from a few images without known camera poses or object
categories. The crux of our work is solving two fundamental 3D vision problems
-- shape reconstruction and pose estimation -- in a unified approach. Our
approach captures the synergies of these two problems: reliable camera pose
estimation gives rise to accurate shape reconstruction, and the accurate
reconstruction, in turn, induces robust correspondence between different views
and facilitates pose estimation. Our method FORGE predicts 3D features from
each view and leverages them in conjunction with the input images to establish
cross-view correspondence for estimating relative camera poses. The 3D features
are then transformed by the estimated poses into a shared space and are fused
into a neural radiance field. The reconstruction results are rendered by volume
rendering techniques, enabling us to train the model without 3D shape
ground-truth. Our experiments show that FORGE reliably reconstructs objects
from five views. Our pose estimation method outperforms existing ones by a
large margin. The reconstruction results under predicted poses are comparable
to the ones using ground-truth poses. The performance on novel testing
categories matches the results on categories seen during training. Project
page: https://ut-austin-rpl.github.io/FORGE/
- Abstract(参考訳): 近年では物体の復元が大きな進歩を遂げているが、現在の手法では一般的に高密度に撮影された画像やカメラのポーズが必要となる。
本研究は,自然界におけるオブジェクトの再構築に向けて,カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から,一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、統一されたアプローチで2つの基本的な3D視覚問題(形状再構成とポーズ推定)を解決することです。
信頼性の高いカメラポーズ推定は正確な形状再構成を生じさせ、正確な再構成は異なる視点間のロバストな対応を誘発し、ポーズ推定を促進する。
提案手法は,各視点から3次元特徴を予測し,入力画像と連動して,相対カメラポーズ推定のためのクロスビュー対応を確立する。
3D特徴は、推定されたポーズによって共有空間に変換され、神経放射場に融合される。
復元結果はボリュームレンダリング技術によってレンダリングされ、3次元形状のグラウンドトルースを使わずにモデルを訓練することができる。
実験の結果,forgeは5つの視点から確実にオブジェクトを再構築できることがわかった。
ポーズ推定法は既存のものよりも大きなマージンで優れている。
予測されたポーズによる再構成結果は,接地姿勢と同等である。
新たなテストカテゴリのパフォーマンスは、トレーニング中に見られるカテゴリの結果にマッチする。
プロジェクトページ: https://ut-austin-rpl.github.io/forge/
関連論文リスト
- EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Comparative Evaluation of 3D Reconstruction Methods for Object Pose Estimation [22.830136701433613]
本稿では,3次元再構成品質がポーズ推定精度に与える影響を評価するための新しいベンチマークを提案する。
複数の最先端の3D再構成とオブジェクトポーズ推定手法による詳細な実験により、現代的な再構成手法によって生成された幾何学が、正確なポーズ推定に十分であることが示された。
論文 参考訳(メタデータ) (2024-08-15T15:58:11Z) - Extreme Two-View Geometry From Object Poses with Diffusion Models [21.16779160086591]
オブジェクト先行のパワーを利用して、極端な視点変化に直面した2次元幾何学を正確に決定する。
実験では, 大局的な視点変化に対して, 突如として頑健さと弾力性を示した。
論文 参考訳(メタデータ) (2024-02-05T08:18:47Z) - iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse
Views [61.707755434165335]
iFusionは、未知のカメラポーズを持つ2つのビューのみを必要とする、新しい3Dオブジェクト再構成フレームワークである。
我々は,様々な物体の形状や外観に関する暗黙の知識を組み込んだ,事前学習されたビュー合成拡散モデルを利用する。
ポーズ推定と新しいビュー合成の両方において、実験は強い性能を示す。
論文 参考訳(メタデータ) (2023-12-28T18:59:57Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Learning Pose-invariant 3D Object Reconstruction from Single-view Images [61.98279201609436]
本稿では,単視点画像のみから3次元形状を学習する,より現実的な構成について検討する。
最大の難しさは、単一のビューイメージが提供できる制約の不足にある。
本稿では, 対角コンパクトな形状空間を学習するために, 効果的な対角領域混同法を提案する。
論文 参考訳(メタデータ) (2020-04-03T02:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。