論文の概要: Mutual Adaptive Reasoning for Monocular 3D Multi-Person Pose Estimation
- arxiv url: http://arxiv.org/abs/2207.07900v1
- Date: Sat, 16 Jul 2022 10:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:27:28.580811
- Title: Mutual Adaptive Reasoning for Monocular 3D Multi-Person Pose Estimation
- Title(参考訳): 単眼3次元マルチパーソンポーズ推定のための相互適応推論
- Authors: Juze Zhang, Jingya Wang, Ye Shi, Fei Gao, Lan Xu, Jingyi Yu
- Abstract要約: 既存のボトムアップ手法のほとんどは、カメラ中心の人間のポーズ推定を2つの無関係なサブタスクとして扱う。
両サブタスクの相互利益を利用する統一モデルを提案する。
私たちのモデルは、既存のボトムアップメソッドやトップダウンメソッドよりもはるかに高速に動作します。
- 参考スコア(独自算出の注目度): 45.06447187321217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inter-person occlusion and depth ambiguity make estimating the 3D poses of
monocular multiple persons as camera-centric coordinates a challenging problem.
Typical top-down frameworks suffer from high computational redundancy with an
additional detection stage. By contrast, the bottom-up methods enjoy low
computational costs as they are less affected by the number of humans. However,
most existing bottom-up methods treat camera-centric 3D human pose estimation
as two unrelated subtasks: 2.5D pose estimation and camera-centric depth
estimation. In this paper, we propose a unified model that leverages the mutual
benefits of both these subtasks. Within the framework, a robust structured 2.5D
pose estimation is designed to recognize inter-person occlusion based on depth
relationships. Additionally, we develop an end-to-end geometry-aware depth
reasoning method that exploits the mutual benefits of both 2.5D pose and
camera-centric root depths. This method first uses 2.5D pose and geometry
information to infer camera-centric root depths in a forward pass, and then
exploits the root depths to further improve representation learning of 2.5D
pose estimation in a backward pass. Further, we designed an adaptive fusion
scheme that leverages both visual perception and body geometry to alleviate
inherent depth ambiguity issues. Extensive experiments demonstrate the
superiority of our proposed model over a wide range of bottom-up methods. Our
accuracy is even competitive with top-down counterparts. Notably, our model
runs much faster than existing bottom-up and top-down methods.
- Abstract(参考訳): 対人咬合と深度あいまいさは、カメラ中心の座標として単眼の複数の人の3Dポーズを推定する。
一般的なトップダウンフレームワークは、さらなる検出段階を伴う高い計算冗長性に悩まされる。
対照的にボトムアップ手法は、人間の数に影響を受けないため、計算コストが低い。
しかし、既存のボトムアップ法は、カメラ中心の3次元人物ポーズ推定を2.5次元ポーズ推定とカメラ中心の深度推定の2つの無関係なサブタスクとして扱う。
本稿では,これら2つのサブタスクの相互利益を生かした統一モデルを提案する。
フレームワーク内では、深さ関係に基づく人物間咬合を認識するために、ロバストな2.5dポーズ推定が設計されている。
さらに、2.5Dポーズとカメラ中心の根深の双方の利点を生かした、エンドツーエンドの幾何認識深度推論手法を開発した。
この方法はまず2.5Dポーズ情報と幾何情報を用いて前方パスにおけるカメラ中心の根深を推定し,さらに後方パスにおける2.5Dポーズ推定の表現学習を改善する。
さらに,視覚知覚と身体形状の両面を利用した適応融合方式を設計し,固有深度曖昧性問題を軽減する。
広範囲にわたる実験により,提案モデルがボトムアップ法より優れていることを示す。
私たちの正確さはトップダウンのものとさえ競合する。
特に、私たちのモデルは既存のボトムアップやトップダウンメソッドよりもはるかに高速です。
関連論文リスト
- DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Residual Pose: A Decoupled Approach for Depth-based 3D Human Pose
Estimation [18.103595280706593]
我々は,CNNによる信頼度の高い2次元ポーズ推定の最近の進歩を活用し,深度画像から人物の3次元ポーズを推定する。
提案手法は2つの公開データセットの精度と速度の両面で非常に競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-11-10T10:08:13Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。