論文の概要: Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2208.00090v1
- Date: Fri, 29 Jul 2022 22:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:42:42.455345
- Title: Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation
- Title(参考訳): 多人数3次元ポーズ推定のための明示的オクルージョン推論
- Authors: Qihao Liu, Yi Zhang, Song Bai, Alan Yuille
- Abstract要約: 咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
- 参考スコア(独自算出の注目度): 33.86986028882488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusion poses a great threat to monocular multi-person 3D human pose
estimation due to large variability in terms of the shape, appearance, and
position of occluders. While existing methods try to handle occlusion with pose
priors/constraints, data augmentation, or implicit reasoning, they still fail
to generalize to unseen poses or occlusion cases and may make large mistakes
when multiple people are present. Inspired by the remarkable ability of humans
to infer occluded joints from visible cues, we develop a method to explicitly
model this process that significantly improves bottom-up multi-person human
pose estimation with or without occlusions. First, we split the task into two
subtasks: visible keypoints detection and occluded keypoints reasoning, and
propose a Deeply Supervised Encoder Distillation (DSED) network to solve the
second one. To train our model, we propose a Skeleton-guided human Shape
Fitting (SSF) approach to generate pseudo occlusion labels on the existing
datasets, enabling explicit occlusion reasoning. Experiments show that
explicitly learning from occlusions improves human pose estimation. In
addition, exploiting feature-level information of visible joints allows us to
reason about occluded joints more accurately. Our method outperforms both the
state-of-the-art top-down and bottom-up methods on several benchmarks.
- Abstract(参考訳): 咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存の手法では、ポーズ優先/規則、データ拡張、暗黙的推論による咬合を扱おうとするが、それでも認識できないポーズや咬合の場合への一般化に失敗し、複数の人がいれば大きな間違いを犯すことがある。
目に見える手がかりからオクルード関節を推定する人間の顕著な能力に触発され,オクルージョンの有無にかかわらずボトムアップ多人数ポーズ推定を著しく改善するこの過程を明示的にモデル化する手法を開発した。
まず、タスクを2つのサブタスクに分割する: 可視的キーポイント検出と排他的キーポイント推論であり、第2の課題を解決するために、Deeply Supervised Encoder Distillation (DSED) ネットワークを提案する。
本モデルのトレーニングには,既存のデータセット上に擬似閉塞ラベルを生成するためのスケルトン誘導型ヒューマンシェイプフィッティング(SSF)アプローチを提案する。
実験により、オクルージョンから明示的に学習することは人間のポーズ推定を改善することが示されている。
さらに, 目視関節の特徴レベル情報を活用することで, 閉塞関節をより正確に判断することができる。
提案手法は,いくつかのベンチマークにおいて,最先端のトップダウン法とボトムアップ法の両方に優れる。
関連論文リスト
- DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - A comprehensive framework for occluded human pose estimation [10.92234109536279]
咬合は人間のポーズ推定において重要な課題である。
そこで我々は,DAG (Data, Attention, Graph) を提案する。
また、FGMP-GCN (Feature-Guided Multi-Hop GCN) を提示し、身体構造に関する事前知識を十分に探求し、ポーズ推定結果を改善する。
論文 参考訳(メタデータ) (2023-12-30T06:55:30Z) - Learning Visibility for Robust Dense Human Body Estimation [78.37389398573882]
2D画像から3Dのポーズと形状を推定することは、非常に難しい課題だ。
部分的な観察に頑健な高密度な人体推定を学習する。
我々は、高密度UV通信から可視性ラベルの擬似基底構造を取得し、3次元座標とともに可視性を予測するニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-08-23T00:01:05Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks [33.974241749058585]
マルチパーソンポーズ推定は、人間の検出が間違っている可能性があり、人間の結合群は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。
論文 参考訳(メタデータ) (2021-04-05T07:05:21Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。