論文の概要: ID-Pose: Sparse-view Camera Pose Estimation by Inverting Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.17140v2
- Date: Thu, 30 Nov 2023 18:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:23:35.866986
- Title: ID-Pose: Sparse-view Camera Pose Estimation by Inverting Diffusion
Models
- Title(参考訳): ID-Pose:逆拡散モデルによるスパースビューカメラポース推定
- Authors: Weihao Cheng, Yan-Pei Cao, Ying Shan
- Abstract要約: 本稿では,2つの入力画像が与えられた相対的なポーズを推定するために,デノナイズ拡散過程を逆転するID-Poseを提案する。
我々は2つ以上の画像を扱うためにID-Poseを拡張し、三角関係から複数の画像対で各ポーズを推定する。
その結果,ID-Poseは最先端手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 43.86792681109704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given sparse views of a 3D object, estimating their camera poses is a
long-standing and intractable problem. Toward this goal, we consider harnessing
the pre-trained diffusion model of novel views conditioned on viewpoints
(Zero-1-to-3). We present ID-Pose which inverses the denoising diffusion
process to estimate the relative pose given two input images. ID-Pose adds a
noise to one image, and predicts the noise conditioned on the other image and a
hypothesis of the relative pose. The prediction error is used as the
minimization objective to find the optimal pose with the gradient descent
method. We extend ID-Pose to handle more than two images and estimate each pose
with multiple image pairs from triangular relations. ID-Pose requires no
training and generalizes to open-world images. We conduct extensive experiments
using casually captured photos and rendered images with random viewpoints. The
results demonstrate that ID-Pose significantly outperforms state-of-the-art
methods.
- Abstract(参考訳): 3Dオブジェクトのスパースビューを考えると、カメラのポーズを見積もるのは長くて難解な問題だ。
本研究の目的は,視点に基づく新しい視点の事前学習拡散モデル(Zero-1-to-3)を活用することである。
そこで,2つの入力画像から相対ポーズを推定するために,雑音拡散過程を逆解析するid-poseを提案する。
ID-Poseは1つの画像にノイズを加え、もう1つの画像に条件付けられたノイズと相対的なポーズの仮説を予測する。
この予測誤差を最小化目標として,勾配降下法による最適ポーズを求める。
我々は2つ以上の画像を扱うためにID-Poseを拡張し、三角関係から複数の画像対で各ポーズを推定する。
ID-Poseはトレーニングを必要とせず、オープンワールドイメージに一般化する。
カジュアルに撮影した写真と無作為な視点でレンダリング画像を用いて広範囲にわたる実験を行う。
その結果,ID-Poseは最先端手法よりも優れていた。
関連論文リスト
- SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - Stochastic Modeling for Learnable Human Pose Triangulation [0.7646713951724009]
本研究では,3次元ポーズ三角測量のためのモデリングフレームワークを提案し,その性能を異なるデータセットと空間カメラアレンジメントで評価する。
提案したポーズ三角測量モデルは、異なるカメラアレンジメントと2つの公開データセット間の一般化に成功している。
論文 参考訳(メタデータ) (2021-10-01T09:26:25Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。