論文の概要: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for
Monocular Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2303.12787v2
- Date: Mon, 17 Apr 2023 08:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 20:36:33.564434
- Title: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for
Monocular Object Pose Estimation
- Title(参考訳): EPro-PnP:一眼的対象推定のための一般化エンドツーエンド確率的視点n点
- Authors: Hansheng Chen, Wei Tian, Pichao Wang, Fan Wang, Lu Xiong, Hao Li
- Abstract要約: Perspective-n-Pointを介して単一のRGB画像から3Dオブジェクトを配置することは、コンピュータビジョンにおける長年の問題である。
EPro-Sceneは既存の通信網を強化し、MODベースの手法とLine 6DoFのポーズ推定ベンチマークのギャップを埋める。
- 参考スコア(独自算出の注目度): 22.672080094222082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Locating 3D objects from a single RGB image via Perspective-n-Point (PnP) is
a long-standing problem in computer vision. Driven by end-to-end deep learning,
recent studies suggest interpreting PnP as a differentiable layer, allowing for
partial learning of 2D-3D point correspondences by backpropagating the
gradients of pose loss. Yet, learning the entire correspondences from scratch
is highly challenging, particularly for ambiguous pose solutions, where the
globally optimal pose is theoretically non-differentiable w.r.t. the points. In
this paper, we propose the EPro-PnP, a probabilistic PnP layer for general
end-to-end pose estimation, which outputs a distribution of pose with
differentiable probability density on the SE(3) manifold. The 2D-3D coordinates
and corresponding weights are treated as intermediate variables learned by
minimizing the KL divergence between the predicted and target pose
distribution. The underlying principle generalizes previous approaches, and
resembles the attention mechanism. EPro-PnP can enhance existing correspondence
networks, closing the gap between PnP-based method and the task-specific
leaders on the LineMOD 6DoF pose estimation benchmark. Furthermore, EPro-PnP
helps to explore new possibilities of network design, as we demonstrate a novel
deformable correspondence network with the state-of-the-art pose accuracy on
the nuScenes 3D object detection benchmark. Our code is available at
https://github.com/tjiiv-cprg/EPro-PnP-v2.
- Abstract(参考訳): Perspective-n-Point (PnP) による単一のRGB画像からの3Dオブジェクトの配置は、コンピュータビジョンにおける長年の問題である。
エンドツーエンドのディープラーニングによって駆動される最近の研究は、PnPを微分可能な層として解釈し、ポーズ損失の勾配を逆伝播させることで2D-3D点対応の部分的学習を可能にすることを示唆している。
しかし、スクラッチからすべての対応を学ぶことは極めて困難であり、特に不明瞭なポーズ解では、大域的最適ポーズは理論上は微分不可能である。
本稿では,SE(3)多様体上の確率密度の異なるポーズの分布を出力する一般エンドツーエンドのポーズ推定のための確率的PnP層であるEPro-PnPを提案する。
2D-3D座標と対応する重みは、予測されたポーズ分布と目標ポーズ分布とのKL分散を最小化して学習した中間変数として扱われる。
基本原理は以前のアプローチを一般化し、注意機構に似ている。
EPro-PnPは既存の通信網を強化し、PnPベースの手法とLineMOD 6DoFのポーズ推定ベンチマークにおけるタスク固有のリーダーとのギャップを埋める。
さらに、EPro-PnPは、nuScenes 3Dオブジェクト検出ベンチマーク上で、最先端のポーズ精度を持つ新しい変形可能な対応ネットワークを実証し、ネットワーク設計の新たな可能性を探るのに役立つ。
私たちのコードはhttps://github.com/tjiiv-cprg/epro-pnp-v2で利用可能です。
関連論文リスト
- CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation [64.12149365530624]
現代の画像に基づく6Dオブジェクトのポーズ推定手法は、2D-3D対応の予測を学習し、そこから解法を用いてポーズを求めることができる。
ここでは、ネットワークが精度を低下させるであろう勾配につながる問題の平均的な性質と矛盾するものであると論じる。
論文 参考訳(メタデータ) (2023-03-21T00:32:31Z) - EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for
Monocular Object Pose Estimation [22.672080094222082]
Perspective-n-Pointsを介して単一のRGB画像から3Dオブジェクトを配置することは、コンピュータビジョンにおける長年の問題である。
最近の研究が示唆されている。
2D-3Dポイントの微分可能な層。
通信は、部分的にオブジェクトのポーズを宣伝することで学習することができる。
しかし、スクラッチから得られる2D-3Dポイントの集合は、既存のアプローチと収束しない。
論文 参考訳(メタデータ) (2022-03-24T17:59:49Z) - Beyond Weak Perspective for Monocular 3D Human Pose Estimation [6.883305568568084]
単眼映像からの3次元関節位置と方向予測の課題を考察する。
まず,市販のポーズ推定アルゴリズムを用いて2次元関節位置を推定する。
次に、初期パラメータを受信するSMPLifyアルゴリズムに準拠する。
論文 参考訳(メタデータ) (2020-09-14T16:23:14Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Solving the Blind Perspective-n-Point Problem End-To-End With Robust
Differentiable Geometric Optimization [44.85008070868851]
Blind Perspective-n-Pointは、シーンに対するカメラの位置を推定する問題である。
本稿では,視覚幾何学的問題を効果的に解くための,最初の完全エンドツーエンドのトレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:35:45Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。