論文の概要: Dual networks based 3D Multi-Person Pose Estimation from Monocular Video
- arxiv url: http://arxiv.org/abs/2205.00748v2
- Date: Wed, 4 May 2022 07:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 11:35:22.509869
- Title: Dual networks based 3D Multi-Person Pose Estimation from Monocular Video
- Title(参考訳): デュアルネットワークを用いたモノクロ映像からの3次元マルチパーソンポーズ推定
- Authors: Yu Cheng, Bo Wang, Robby T. Tan
- Abstract要約: 複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
- 参考スコア(独自算出の注目度): 42.01876518017639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D human pose estimation has made progress in recent years. Most of
the methods focus on single persons, which estimate the poses in the
person-centric coordinates, i.e., the coordinates based on the center of the
target person. Hence, these methods are inapplicable for multi-person 3D pose
estimation, where the absolute coordinates (e.g., the camera coordinates) are
required. Moreover, multi-person pose estimation is more challenging than
single pose estimation, due to inter-person occlusion and close human
interactions. Existing top-down multi-person methods rely on human detection
(i.e., top-down approach), and thus suffer from the detection errors and cannot
produce reliable pose estimation in multi-person scenes. Meanwhile, existing
bottom-up methods that do not use human detection are not affected by detection
errors, but since they process all persons in a scene at once, they are prone
to errors, particularly for persons in small scales. To address all these
challenges, we propose the integration of top-down and bottom-up approaches to
exploit their strengths. Our top-down network estimates human joints from all
persons instead of one in an image patch, making it robust to possible
erroneous bounding boxes. Our bottom-up network incorporates human-detection
based normalized heatmaps, allowing the network to be more robust in handling
scale variations. Finally, the estimated 3D poses from the top-down and
bottom-up networks are fed into our integration network for final 3D poses. To
address the common gaps between training and testing data, we do optimization
during the test time, by refining the estimated 3D human poses using high-order
temporal constraint, re-projection loss, and bone length regularizations. Our
evaluations demonstrate the effectiveness of the proposed method. Code and
models are available: https://github.com/3dpose/3D-Multi-Person-Pose.
- Abstract(参考訳): 近年,単眼の3次元ポーズ推定が進歩している。
たいていの方法は1人の人物に焦点を当てており、その人物中心の座標(つまり、対象人物の中心に基づく座標)のポーズを推定する。
したがって、これらの手法は、絶対座標(例えば、カメラ座標)が必要なマルチパーソン3Dポーズ推定には適用できない。
さらに,複数対人ポーズ推定は,対人オクルージョンと密接な人間間相互作用により,単一対人ポーズ推定よりも困難である。
既存のトップダウンマルチパーソンメソッドは、人間の検出(すなわちトップダウンアプローチ)に依存しており、検出エラーに悩まされ、マルチパーソンシーンで信頼できるポーズ推定ができない。
一方、人間の検出を使わない既存のボトムアップ手法は、検出エラーの影響を受けないが、一度にすべての人を処理しているため、特に小規模の人ではエラーが生じる傾向にある。
これらすべての課題に対処するために,我々は,トップダウンとボトムアップのアプローチの統合を提案する。
私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。
我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。
最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。
トレーニングデータとテストデータの共通的なギャップに対処するために,高次時間制約,再投影損失,骨長規則化を用いて推定3次元ポーズを精錬することにより,テスト時間中の最適化を行う。
提案手法の有効性について検討した。
コードとモデルは以下の通りである。
関連論文リスト
- Bottom-Up 2D Pose Estimation via Dual Anatomical Centers for Small-Scale
Persons [75.86463396561744]
マルチパーソン2Dポーズ推定では、ボトムアップ手法は同時にすべての人のポーズを予測する。
本手法は,バウンディングボックス精度を38.4%改善し,バウンディングボックスリコールを39.1%改善した。
ヒトのポーズAP評価では,COCOテストデフセット上で新しいSOTA(71.0 AP)を単一スケールテストで達成する。
論文 参考訳(メタデータ) (2022-08-25T10:09:10Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks [33.974241749058585]
マルチパーソンポーズ推定は、人間の検出が間違っている可能性があり、人間の結合群は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。
論文 参考訳(メタデータ) (2021-04-05T07:05:21Z) - Iterative Greedy Matching for 3D Human Pose Tracking from Multiple Views [22.86745487695168]
キャリブレーションカメラのセットから複数の人の3D人間のポーズを推定するアプローチを提案する。
提案手法は,リアルタイム2次元多人数ポーズ推定システムを構築し,複数視点間の連想問題を柔軟に解決する。
論文 参考訳(メタデータ) (2021-01-24T16:28:10Z) - PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation [35.791868530073955]
PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
論文 参考訳(メタデータ) (2021-01-07T10:32:17Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。