論文の概要: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for
Monocular Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2203.13254v1
- Date: Thu, 24 Mar 2022 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:26:56.612789
- Title: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for
Monocular Object Pose Estimation
- Title(参考訳): EPro-PnP:一眼的対象推定のための一般化エンドツーエンド確率的視点n点
- Authors: Hansheng Chen, Pichao Wang, Fan Wang, Wei Tian, Lu Xiong, Hao Li
- Abstract要約: Perspective-n-Pointsを介して単一のRGB画像から3Dオブジェクトを配置することは、コンピュータビジョンにおける長年の問題である。
最近の研究が示唆されている。
2D-3Dポイントの微分可能な層。
通信は、部分的にオブジェクトのポーズを宣伝することで学習することができる。
しかし、スクラッチから得られる2D-3Dポイントの集合は、既存のアプローチと収束しない。
- 参考スコア(独自算出の注目度): 22.672080094222082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Locating 3D objects from a single RGB image via Perspective-n-Points (PnP) is
a long-standing problem in computer vision. Driven by end-to-end deep learning,
recent studies suggest interpreting PnP as a differentiable layer, so that
2D-3D point correspondences can be partly learned by backpropagating the
gradient w.r.t. object pose. Yet, learning the entire set of unrestricted 2D-3D
points from scratch fails to converge with existing approaches, since the
deterministic pose is inherently non-differentiable. In this paper, we propose
the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation,
which outputs a distribution of pose on the SE(3) manifold, essentially
bringing categorical Softmax to the continuous domain. The 2D-3D coordinates
and corresponding weights are treated as intermediate variables learned by
minimizing the KL divergence between the predicted and target pose
distribution. The underlying principle unifies the existing approaches and
resembles the attention mechanism. EPro-PnP significantly outperforms
competitive baselines, closing the gap between PnP-based method and the
task-specific leaders on the LineMOD 6DoF pose estimation and nuScenes 3D
object detection benchmarks.
- Abstract(参考訳): Perspective-n-Points (PnP) による単一のRGB画像からの3Dオブジェクトの配置は、コンピュータビジョンにおける長年の問題である。
エンドツーエンドのディープラーニングによって駆動される最近の研究は、PnPを微分可能な層として解釈することを提案している。
しかし、スクラッチから制約のない2D-3D点の集合全体を学ぶことは、決定論的ポーズが本質的に微分不可能であるため、既存のアプローチと収束することができない。
本稿では、se(3)多様体上のポーズ分布を出力し、本質的には連続領域にカテゴリソフトマックスをもたらす、一般的なエンドツーエンドポーズ推定のための確率的pnp層であるepro-pnpを提案する。
2D-3D座標と対応する重みは、予測されたポーズ分布と目標ポーズ分布とのKL分散を最小化して学習した中間変数として扱われる。
基本原理は既存のアプローチを統一し、注意機構に似ている。
EPro-PnPは、PnPベースの手法とLineMOD 6DoF上のタスク固有のリーダーとのギャップを埋めることによって、競合ベースラインを著しく上回る。
関連論文リスト
- EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for
Monocular Object Pose Estimation [30.212903535850874]
Perspective-n-Pointを介して単一のRGB画像から3Dオブジェクトを配置することは、コンピュータビジョンにおける長年の問題である。
EPro-Sceneは既存の通信網を強化し、MODベースの手法とLine 6DoFのポーズ推定ベンチマークのギャップを埋める。
論文 参考訳(メタデータ) (2023-03-22T17:57:36Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation [64.12149365530624]
現代の画像に基づく6Dオブジェクトのポーズ推定手法は、2D-3D対応の予測を学習し、そこから解法を用いてポーズを求めることができる。
ここでは、ネットワークが精度を低下させるであろう勾配につながる問題の平均的な性質と矛盾するものであると論じる。
論文 参考訳(メタデータ) (2023-03-21T00:32:31Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Beyond Weak Perspective for Monocular 3D Human Pose Estimation [6.883305568568084]
単眼映像からの3次元関節位置と方向予測の課題を考察する。
まず,市販のポーズ推定アルゴリズムを用いて2次元関節位置を推定する。
次に、初期パラメータを受信するSMPLifyアルゴリズムに準拠する。
論文 参考訳(メタデータ) (2020-09-14T16:23:14Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。