論文の概要: A comprehensive framework for occluded human pose estimation
- arxiv url: http://arxiv.org/abs/2401.00155v2
- Date: Tue, 9 Jan 2024 07:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:57:01.052644
- Title: A comprehensive framework for occluded human pose estimation
- Title(参考訳): 客観的ポーズ推定のための包括的枠組み
- Authors: Linhao Xu, Lin Zhao, Xinxin Sun, Di Wang, Guangyu Li, Kedong Yan
- Abstract要約: 咬合は人間のポーズ推定において重要な課題である。
そこで我々は,DAG (Data, Attention, Graph) を提案する。
また、FGMP-GCN (Feature-Guided Multi-Hop GCN) を提示し、身体構造に関する事前知識を十分に探求し、ポーズ推定結果を改善する。
- 参考スコア(独自算出の注目度): 10.92234109536279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusion presents a significant challenge in human pose estimation. The
challenges posed by occlusion can be attributed to the following factors: 1)
Data: The collection and annotation of occluded human pose samples are
relatively challenging. 2) Feature: Occlusion can cause feature confusion due
to the high similarity between the target person and interfering individuals.
3) Inference: Robust inference becomes challenging due to the loss of complete
body structural information. The existing methods designed for occluded human
pose estimation usually focus on addressing only one of these factors. In this
paper, we propose a comprehensive framework DAG (Data, Attention, Graph) to
address the performance degradation caused by occlusion. Specifically, we
introduce the mask joints with instance paste data augmentation technique to
simulate occlusion scenarios. Additionally, an Adaptive Discriminative
Attention Module (ADAM) is proposed to effectively enhance the features of
target individuals. Furthermore, we present the Feature-Guided Multi-Hop GCN
(FGMP-GCN) to fully explore the prior knowledge of body structure and improve
pose estimation results. Through extensive experiments conducted on three
benchmark datasets for occluded human pose estimation, we demonstrate that the
proposed method outperforms existing methods. Code and data will be publicly
available.
- Abstract(参考訳): 咬合は人間のポーズ推定において重要な課題である。
咬合によって生じる課題は以下の要因によって引き起こされる。
1)データ:オクルードされた人間のポーズサンプルの収集と注釈は、比較的難しい。
2) 特徴: 咬合は, 対象者と干渉者との類似度が高いため, 特徴的混乱を引き起こす可能性がある。
3) 推論: 全身構造情報の損失によりロバストな推論が困難になる。
隠蔽された人間のポーズ推定のために設計された既存の方法は、通常、これらの要因の1つにのみ対処することに焦点を当てる。
本稿では,閉塞による性能劣化に対処するための総合的なフレームワークDAG(Data, Attention, Graph)を提案する。
具体的には, 咬合シナリオをシミュレートするために, インスタンスペーストデータ拡張技術を用いたマスクジョイントを紹介する。
また,適応識別注意モジュール (ADAM) が提案され,対象個人の特徴を効果的に強化する。
さらに,FGMP-GCN(Feature-Guided Multi-Hop GCN)を提案し,身体構造に関する事前知識を十分に探求し,ポーズ推定結果を改善する。
提案手法が既存の手法よりも優れていることを示すために,3つのベンチマークデータセットを用いた大規模実験を行った。
コードとデータは公開される予定だ。
関連論文リスト
- Occluded Human Pose Estimation based on Limb Joint Augmentation [14.36131862057872]
そこで本研究では,人体におけるポーズ推定モデルの一般化能力を高めるために,手足関節拡張に基づく閉鎖型ポーズ推定フレームワークを提案する。
モデルの局所化能力を高めるために,手足グラフに基づく動的構造損失関数を構築し,閉塞した関節の分布を探索する。
論文 参考訳(メタデータ) (2024-10-13T15:48:24Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - 3D Human Pose Analysis via Diffusion Synthesis [65.268245109828]
PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。
その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。
論文 参考訳(メタデータ) (2024-01-17T02:59:34Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。