論文の概要: Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks
- arxiv url: http://arxiv.org/abs/2104.01797v2
- Date: Wed, 7 Apr 2021 06:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:09:11.774494
- Title: Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks
- Title(参考訳): トップダウンネットワークとボトムアップネットワークの統合による単眼3次元マルチパーソンポーズ推定
- Authors: Yu Cheng, Bo Wang, Bo Yang, Robby T. Tan
- Abstract要約: マルチパーソンポーズ推定は、人間の検出が間違っている可能性があり、人間の結合群は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。
- 参考スコア(独自算出の注目度): 33.974241749058585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In monocular video 3D multi-person pose estimation, inter-person occlusion
and close interactions can cause human detection to be erroneous and
human-joints grouping to be unreliable. Existing top-down methods rely on human
detection and thus suffer from these problems. Existing bottom-up methods do
not use human detection, but they process all persons at once at the same
scale, causing them to be sensitive to multiple-persons scale variations. To
address these challenges, we propose the integration of top-down and bottom-up
approaches to exploit their strengths. Our top-down network estimates human
joints from all persons instead of one in an image patch, making it robust to
possible erroneous bounding boxes. Our bottom-up network incorporates
human-detection based normalized heatmaps, allowing the network to be more
robust in handling scale variations. Finally, the estimated 3D poses from the
top-down and bottom-up networks are fed into our integration network for final
3D poses. Besides the integration of top-down and bottom-up networks, unlike
existing pose discriminators that are designed solely for single person, and
consequently cannot assess natural inter-person interactions, we propose a
two-person pose discriminator that enforces natural two-person interactions.
Lastly, we also apply a semi-supervised method to overcome the 3D ground-truth
data scarcity. Our quantitative and qualitative evaluations show the
effectiveness of our method compared to the state-of-the-art baselines.
- Abstract(参考訳): モノクロビデオ3Dマルチパーソンのポーズ推定では、人物間の閉塞と密接な相互作用により、人間の検出は誤認され、人間の結合は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
既存のボトムアップ手法では人間の検出は行われていないが、すべての人を同じ規模で同時に処理し、複数の人のスケールに敏感になる。
これらの課題に対処するため,我々は,トップダウンとボトムアップの統合による強みの活用を提案する。
私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。
我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。
最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。
トップダウンとボトムアップのネットワークの統合に加えて、単独でデザインされ、結果として自然な対人インタラクションを評価できない既存のポーズ判別器とは異なり、自然な対人インタラクションを強制する2人のポーズ判別器を提案する。
最後に, 半教師あり法を適用し, 3次元地中データ不足を克服した。
定量的・質的評価は,最先端のベースラインと比較し,本手法の有効性を示す。
関連論文リスト
- AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Perceiving Humans: from Monocular 3D Localization to Social Distancing [93.03056743850141]
本稿では,人間の3次元位置と身体の向きを1つの画像から知覚する,コスト効率の高い視覚ベースの新しい手法を提案する。
我々は,「社会的距離」という概念を,単純な位置に基づくルールとは対照的に,社会的相互作用の一形態として再考することが可能であることを示す。
論文 参考訳(メタデータ) (2020-09-01T10:12:30Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。