論文の概要: PoP-Net: Pose over Parts Network for Multi-Person 3D Pose Estimation
from a Depth Image
- arxiv url: http://arxiv.org/abs/2012.06734v1
- Date: Sat, 12 Dec 2020 05:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:19:03.000989
- Title: PoP-Net: Pose over Parts Network for Multi-Person 3D Pose Estimation
from a Depth Image
- Title(参考訳): pop-net: 深度画像による多人数3次元ポーズ推定のための部品ネットワーク上のポーズ
- Authors: Yuliang Guo, Zhong Li, Zekun Li, Xiangyu Du, Shuxue Quan, Yi Xu
- Abstract要約: PoP-Netは、ボトムアップ部分検出マップとトップダウングローバルポーズを単発フレームワークで予測することを学ぶ。
Truncated Part Displacement Field (TPDF)と呼ばれる新しい部分レベルの表現が導入される。
グローバルポーズと局所検出の競合を自動的に解消するモード選択スキームを開発した。
- 参考スコア(独自算出の注目度): 23.4306183645569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, a real-time method called PoP-Net is proposed to predict
multi-person 3D poses from a depth image. PoP-Net learns to predict bottom-up
part detection maps and top-down global poses in a single-shot framework. A
simple and effective fusion process is applied to fuse the global poses and
part detection. Specifically, a new part-level representation, called Truncated
Part Displacement Field (TPDF), is introduced. It drags low-precision global
poses towards more accurate part locations while maintaining the advantage of
global poses in handling severe occlusion and truncation cases. A mode
selection scheme is developed to automatically resolve the conflict between
global poses and local detection. Finally, due to the lack of high-quality
depth datasets for developing and evaluating multi-person 3D pose estimation
methods, a comprehensive depth dataset with 3D pose labels is released. The
dataset is designed to enable effective multi-person and background data
augmentation such that the developed models are more generalizable towards
uncontrolled real-world multi-person scenarios. We show that PoP-Net has
significant advantages in efficiency for multi-person processing and achieves
the state-of-the-art results both on the released challenging dataset and on
the widely used ITOP dataset.
- Abstract(参考訳): 本稿では,深度画像から複数人物の3Dポーズを予測するために,PoP-Netと呼ばれるリアルタイム手法を提案する。
PoP-Netは、ボトムアップ部分検出マップとトップダウングローバルポーズを単発フレームワークで予測することを学ぶ。
大域的なポーズと部分検出を融合するために、単純で効果的な融合プロセスを適用する。
具体的には、Trncated Part Displacement Field (TPDF)と呼ばれる新しい部分レベルの表現を導入する。
これは、より正確な部分への低精度なグローバルなポーズを引きずり出し、重度のオクルージョンやトランケーションのケースに対処するグローバルなポーズの利点を維持している。
グローバルポーズと局所検出の競合を自動的に解消するモード選択スキームを開発した。
最後に,多人数の3Dポーズ推定手法の開発と評価のための高品質な深度データセットの欠如により,3Dポーズラベル付き総合深度データセットがリリースされた。
データセットは、開発モデルが制御されていない現実世界のマルチパーソンシナリオに対してより一般化できるように、効果的なマルチパーソンおよびバックグラウンドデータ拡張を可能にするように設計されている。
我々は、PoP-Netがマルチパーソン処理の効率において大きな利点があることを示し、リリースした課題データセットと広く使用されているITOPデータセットの両方で最先端の結果を達成する。
関連論文リスト
- PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation [35.791868530073955]
PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
論文 参考訳(メタデータ) (2021-01-07T10:32:17Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。