論文の概要: Generic Objects as Pose Probes for Few-Shot View Synthesis
- arxiv url: http://arxiv.org/abs/2408.16690v1
- Date: Thu, 29 Aug 2024 16:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:02:54.695627
- Title: Generic Objects as Pose Probes for Few-Shot View Synthesis
- Title(参考訳): ポーズプローブとしてのジェネリックオブジェクト
- Authors: Zhirui Gao, Renjiao Yi, Chenyang Zhu, Ke Zhuang, Wei Chen, Kai Xu,
- Abstract要約: NeRFや3D Gaussianなどの放射場は、高忠実なレンダリングやシーン再構成において大きな可能性を示している。
COLMAPはポーズを推定する前処理によく使用される。
我々は,3~6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。
- 参考スコア(独自算出の注目度): 14.768563613747633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as "pose probes". The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance.
- Abstract(参考訳): NeRF や 3D Gaussian などの放射場は高忠実なレンダリングやシーン再構成において大きな可能性を秘めている。
COLMAPはポーズを推定する前処理に頻繁に使用されるが、多くの特徴マッチングが必要であり、スパースな特徴、画像間の大きなベースライン、限られた数の入力画像によって特徴づけられるシーンと競合する。
我々は,3~6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。
従来の方法では校正板を使うことが多いが、画像では一般的ではない。
画像と実生活の両方でよく見られる日常的な物体を「目的プローブ」として活用する新しいアイデアを提案する。
プローブオブジェクトはSAMによって自動的にセグメンテーションされ、その形状は立方体から初期化される。
我々は、ポーズ最適化を制約し、幾何を共同で洗練するために、デュアルブランチボリュームレンダリング最適化(オブジェクトのNeRFとシーンのNeRF)を適用した。
具体的には、2つのビューのオブジェクトのポーズは、最初のポーズとして機能するSDF表現におけるPnPマッチングによって最初に推定される。
少数の機能しか必要としないPnPマッチングは、機能スパースシーンに適している。
追加のビューは、先行するビューからのポーズを洗練するために漸進的に組み込まれます。
実験では、PoseProbeは複数のデータセットにまたがるポーズ推定と新しいビュー合成の両方で最先端のパフォーマンスを達成する。
特に,COLMAPが苦しむ少数視点および大規模ベースラインシーンにおいて,その効果を実証する。
アブレーションでは、シーンで異なるオブジェクトを使用すると、同等のパフォーマンスが得られる。
関連論文リスト
- PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。
本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。
最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-26T20:42:52Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - SparsePose: Sparse-View Camera Pose Regression and Refinement [32.74890928398753]
ワイドベースライン画像のスパースセット(10以下)が与えられた正確なカメラポーズを復元するためのスパースポーズを提案する。
この方法は、初期カメラのポーズを復元し、大規模なオブジェクトのデータセットをトレーニングした後、繰り返し洗練することを学ぶ。
また,物体の5-9画像のみを用いて高忠実度3次元再構成のためのパイプラインを実証した。
論文 参考訳(メタデータ) (2022-11-29T05:16:07Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。