論文の概要: RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild
- arxiv url: http://arxiv.org/abs/2208.05963v1
- Date: Thu, 11 Aug 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:00:52.695209
- Title: RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild
- Title(参考訳): relpose:野生の単一物体に対する確率的相対回転の予測
- Authors: Jason Y. Zhang and Deva Ramanan and Shubham Tulsiani
- Abstract要約: 本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
- 参考スコア(独自算出の注目度): 73.1276968007689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a data-driven method for inferring the camera viewpoints given
multiple images of an arbitrary object. This task is a core component of
classic geometric pipelines such as SfM and SLAM, and also serves as a vital
pre-processing requirement for contemporary neural approaches (e.g. NeRF) to
object reconstruction and view synthesis. In contrast to existing
correspondence-driven methods that do not perform well given sparse views, we
propose a top-down prediction based approach for estimating camera viewpoints.
Our key technical insight is the use of an energy-based formulation for
representing distributions over relative camera rotations, thus allowing us to
explicitly represent multiple camera modes arising from object symmetries or
views. Leveraging these relative predictions, we jointly estimate a consistent
set of camera rotations from multiple images. We show that our approach
outperforms state-of-the-art SfM and SLAM methods given sparse images on both
seen and unseen categories. Further, our probabilistic approach significantly
outperforms directly regressing relative poses, suggesting that modeling
multimodality is important for coherent joint reconstruction. We demonstrate
that our system can be a stepping stone toward in-the-wild reconstruction from
multi-view datasets. The project page with code and videos can be found at
https://jasonyzhang.com/relpose.
- Abstract(参考訳): 任意の物体の複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
このタスクは、sfmやslamといった古典的な幾何学的パイプラインのコアコンポーネントであり、オブジェクトの再構築とビュー合成に対する現代の神経アプローチ(例えば、nerf)のための重要な前処理要件としても機能する。
スパースビューが十分に機能しない既存の対応駆動方式とは対照的に,カメラ視点推定のためのトップダウン予測手法を提案する。
私たちの重要な技術的洞察は、相対的なカメラ回転の分布を表すエネルギーベースの定式化を使用することで、オブジェクトの対称性やビューから生じる複数のカメラモードを明示的に表現できるということです。
これらの相対予測を利用して、複数の画像から一貫したカメラ回転を推定する。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
さらに, 確率的アプローチは, 直接レグレッシブな相対的なポーズを有意に上回っており, コヒーレントな関節再建にはマルチモーダリティのモデリングが重要であることが示唆された。
本システムは,マルチビューデータセットからのイン・ザ・ワイルド・リコンストラクションへの一歩となることを実証する。
コードとビデオのプロジェクトページはhttps://jasonyzhang.com/relpose.comで見ることができる。
関連論文リスト
- Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle
Adjustment [21.98302129015761]
本稿では,確率的拡散フレームワーク内での運動構造(SfM)問題を定式化することを提案する。
本稿では,従来のSfMパイプラインよりもPoseDiffusionが大幅に改善されていることを示す。
本手法は,さらなるトレーニングを行なわずにデータセットをまたいで一般化できることが観察された。
論文 参考訳(メタデータ) (2023-06-27T17:59:07Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。