Fugu-MT 論文翻訳(概要): Generic Objects as Pose Probes for Few-Shot View Synthesis

論文の概要: Generic Objects as Pose Probes for Few-Shot View Synthesis

arxiv url: http://arxiv.org/abs/2408.16690v2
Date: Sun, 1 Sep 2024 09:07:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 12:24:11.849405
Title: Generic Objects as Pose Probes for Few-Shot View Synthesis
Title（参考訳）: ポーズプローブとしてのジェネリックオブジェクト
Authors: Zhirui Gao, Renjiao Yi, Chenyang Zhu, Ke Zhuang, Wei Chen, Kai Xu,
Abstract要約: NeRFや3D Gaussianなどの放射場は、高忠実なレンダリングやシーン再構成において大きな可能性を示している。 COLMAPはポーズを推定する前処理によく使用される。我々は,3～6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。
参考スコア（独自算出の注目度）: 14.768563613747633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Radiance fields including NeRFs and 3D Gaussians demonstrate great potential in high-fidelity rendering and scene reconstruction, while they require a substantial number of posed images as inputs. COLMAP is frequently employed for preprocessing to estimate poses, while it necessitates a large number of feature matches to operate effectively, and it struggles with scenes characterized by sparse features, large baselines between images, or a limited number of input images. We aim to tackle few-view NeRF reconstruction using only 3 to 6 unposed scene images. Traditional methods often use calibration boards but they are not common in images. We propose a novel idea of utilizing everyday objects, commonly found in both images and real life, as "pose probes". The probe object is automatically segmented by SAM, whose shape is initialized from a cube. We apply a dual-branch volume rendering optimization (object NeRF and scene NeRF) to constrain the pose optimization and jointly refine the geometry. Specifically, object poses of two views are first estimated by PnP matching in an SDF representation, which serves as initial poses. PnP matching, requiring only a few features, is suitable for feature-sparse scenes. Additional views are incrementally incorporated to refine poses from preceding views. In experiments, PoseProbe achieves state-of-the-art performance in both pose estimation and novel view synthesis across multiple datasets. We demonstrate its effectiveness, particularly in few-view and large-baseline scenes where COLMAP struggles. In ablations, using different objects in a scene yields comparable performance. Our project page is available at: \href{https://zhirui-gao.github.io/PoseProbe.github.io/}{this https URL}
Abstract（参考訳）: NeRF や 3D Gaussian などの放射場は高忠実なレンダリングやシーン再構成において大きな可能性を秘めている。 COLMAPはポーズを推定する前処理に頻繁に使用されるが、多くの特徴マッチングが必要であり、スパースな特徴、画像間の大きなベースライン、限られた数の入力画像によって特徴づけられるシーンと競合する。我々は,3～6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。従来の方法では校正板を使うことが多いが、画像では一般的ではない。画像と実生活の両方でよく見られる日常的な物体を「目的プローブ」として活用する新しいアイデアを提案する。プローブオブジェクトはSAMによって自動的にセグメンテーションされ、その形状は立方体から初期化される。我々は、ポーズ最適化を制約し、幾何を共同で洗練するために、デュアルブランチボリュームレンダリング最適化(オブジェクトのNeRFとシーンのNeRF)を適用した。具体的には、2つのビューのオブジェクトのポーズは、最初のポーズとして機能するSDF表現におけるPnPマッチングによって最初に推定される。少数の機能しか必要としないPnPマッチングは、機能スパースシーンに適している。追加のビューは、先行するビューからのポーズを洗練するために漸進的に組み込まれます。実験では、PoseProbeは複数のデータセットにまたがるポーズ推定と新しいビュー合成の両方で最先端のパフォーマンスを達成する。特に,COLMAPが苦しむ少数視点および大規模ベースラインシーンにおいて,その効果を実証する。アブレーションでは、シーンで異なるオブジェクトを使用すると、同等のパフォーマンスが得られる。私たちのプロジェクトページは以下の通りである。

関連論文リスト

AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [57.13066710710485]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文参考訳（メタデータ） (2025-05-29T17:49:56Z)
One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
Fillerbuster: Multi-View Scene Completion for Casual Captures [48.12462469832712]
本稿では,新しい大規模多視点潜伏拡散変換器を用いて3次元シーンの未知領域を完結するFillerbusterを提案する。我々の解決策は、未知のターゲットビューを生成し、必要に応じて画像のポーズを復元しながら、入力フレームの広いコンテキストを消費できる生成モデルを訓練することである。
論文参考訳（メタデータ） (2025-02-07T18:59:51Z)
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。 PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文参考訳（メタデータ） (2023-11-20T18:57:55Z)
Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文参考訳（メタデータ） (2023-05-26T20:42:52Z)
PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。 3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。 PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文参考訳（メタデータ） (2023-04-03T21:14:59Z)
Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文参考訳（メタデータ） (2022-12-08T18:59:02Z)
SparsePose: Sparse-View Camera Pose Regression and Refinement [32.74890928398753]
ワイドベースライン画像のスパースセット(10以下)が与えられた正確なカメラポーズを復元するためのスパースポーズを提案する。この方法は、初期カメラのポーズを復元し、大規模なオブジェクトのデータセットをトレーニングした後、繰り返し洗練することを学ぶ。また,物体の5-9画像のみを用いて高忠実度3次元再構成のためのパイプラインを実証した。
論文参考訳（メタデータ） (2022-11-29T05:16:07Z)
Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文参考訳（メタデータ） (2022-11-21T17:42:42Z)
One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文参考訳（メタデータ） (2022-10-21T17:33:14Z)
Back to the Feature: Learning Robust Camera Localization from Pixels to Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文参考訳（メタデータ） (2021-03-16T17:40:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。