論文の概要: Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2204.04913v1
- Date: Mon, 11 Apr 2022 07:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:25:38.143074
- Title: Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation
- Title(参考訳): 多人数3次元姿勢推定のための置換不変リレーショナルネットワーク
- Authors: Nicolas Ugrinovic, Adria Ruiz, Antonio Agudo, Alberto Sanfeliu,
Francesc Moreno-Noguer
- Abstract要約: 単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
- 参考スコア(独自算出の注目度): 46.38290735670527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recovering multi-person 3D poses from a single RGB image is a severely
ill-conditioned problem due not only to the inherent 2D-3D depth ambiguity but
also because of inter-person occlusions and body truncations. Recent works have
shown promising results by simultaneously reasoning for different people but in
all cases within a local neighborhood. An interesting exception is PI-Net,
which introduces a self-attention block to reason for all people in the image
at the same time and refine potentially noisy initial 3D poses. However, the
proposed methodology requires defining one of the individuals as a reference,
and the outcome of the algorithm is sensitive to this choice. In this paper, we
model people interactions at a whole, independently of their number, and in a
permutation-invariant manner building upon the Set Transformer. We leverage on
this representation to refine the initial 3D poses estimated by off-the-shelf
detectors. A thorough evaluation demonstrates that our approach is able to
boost the performance of the initially estimated 3D poses by large margins,
achieving state-of-the-art results on MuPoTS-3D, CMU Panoptic and NBA2K
datasets. Additionally, the proposed module is computationally efficient and
can be used as a drop-in complement for any 3D pose detector in multi-people
scenes.
- Abstract(参考訳): 単一のRGB画像から複数の人物の3Dポーズを復元することは、2D-3Dの奥行きのあいまいさだけでなく、対人閉塞や身体の切り離しによる問題である。
近年の研究では、異なる人々に対して同時に推論することで有望な結果が得られている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、潜在的にノイズの多い初期3Dポーズを洗練する。
しかし,提案手法では,個人を参照として定義することが必要であり,アルゴリズムの結果はこの選択に敏感である。
本稿では,集合トランスフォーマー上に構築した置換不変な方法で,その数とは独立に,人々のインタラクション全体をモデル化する。
この表現を利用して, 市販検出器から推定した初期3次元ポーズを洗練する。
徹底的な評価の結果,初期推定3dポーズの性能を大きなマージンで向上させ,mupots-3d,cmu panoptic,nba2kデータセットの最先端結果を得ることができた。
さらに,提案モジュールは計算効率が高く,多人数場面における任意の3dポーズ検出器のドロップイン補完として使用できる。
関連論文リスト
- DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Shape-aware Multi-Person Pose Estimation from Multi-View Images [47.13919147134315]
提案した粗大なパイプラインは、まず複数のカメラビューからノイズの多い2次元の観測結果を3次元空間に集約する。
最終的なポーズ推定は、高信頼度多視点2次元観測と3次元関節候補をリンクする新しい最適化スキームから得られる。
論文 参考訳(メタデータ) (2021-10-05T20:04:21Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation [35.791868530073955]
PandaNetは、新しいシングルショット、アンカーベース、マルチパーソナライズされた3Dポーズ推定手法である。
提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。
ネットワークが各バウンディングボックスの完全な3Dポーズを予測するため、関節を再グループ化するための後処理は不要である。
論文 参考訳(メタデータ) (2021-01-07T10:32:17Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。