論文の概要: PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2101.02471v1
- Date: Thu, 7 Jan 2021 10:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:36:46.473747
- Title: PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation
- Title(参考訳): pandanet : アンカーベース単発多人数3次元ポーズ推定
- Authors: Abdallah Benzine, Florian Chabot, Bertrand Luvison, Quoc Cong Pham,
Cahterine Achrd
- Abstract要約: PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
- 参考スコア(独自算出の注目度): 35.791868530073955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several deep learning models have been proposed for 3D human pose
estimation. Nevertheless, most of these approaches only focus on the
single-person case or estimate 3D pose of a few people at high resolution.
Furthermore, many applications such as autonomous driving or crowd analysis
require pose estimation of a large number of people possibly at low-resolution.
In this work, we present PandaNet (Pose estimAtioN and Dectection Anchor-based
Network), a new single-shot, anchor-based and multi-person 3D pose estimation
approach. The proposed model performs bounding box detection and, for each
detected person, 2D and 3D pose regression into a single forward pass. It does
not need any post-processing to regroup joints since the network predicts a
full 3D pose for each bounding box and allows the pose estimation of a possibly
large number of people at low resolution. To manage people overlapping, we
introduce a Pose-Aware Anchor Selection strategy. Moreover, as imbalance exists
between different people sizes in the image, and joints coordinates have
different uncertainties depending on these sizes, we propose a method to
automatically optimize weights associated to different people scales and joints
for efficient training. PandaNet surpasses previous single-shot methods on
several challenging datasets: a multi-person urban virtual but very realistic
dataset (JTA Dataset), and two real world 3D multi-person datasets (CMU
Panoptic and MuPoTS-3D).
- Abstract(参考訳): 近年,3次元ポーズ推定のための深層学習モデルが提案されている。
それにもかかわらず、これらのアプローチのほとんどは、高解像度の少数の人の一人のケースや見積の3Dポーズにのみ焦点を当てています。
さらに、自律運転や群集分析のような多くのアプリケーションは、おそらく低解像度で多数の人のポーズ推定を必要とする。
本研究では,提案手法であるpandanet(pose estimation and dectection anchor-based network)を提案する。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測し、低解像度で潜在的に多くの人のポーズ推定を可能にするため、関節を再グループ化するための後処理は不要である。
重なり合う人を管理するために,ポーズ認識アンカー選択戦略を導入する。
また,画像中の人物サイズ間の不均衡や,その大きさに応じて関節座標が不確実性が異なるため,効率的な訓練のために,人物スケールや関節に関連する重みを自動的に最適化する手法を提案する。
マルチパーソン・アーバン・バーチャルだが非常に現実的なデータセット(jtaデータセット)と2つの現実世界の3dマルチパーソンデータセット(cmu panopticとmupots-3d)である。
関連論文リスト
- Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。