論文の概要: MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling
- arxiv url: http://arxiv.org/abs/2306.17201v2
- Date: Sun, 14 Jul 2024 18:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:08:47.331831
- Title: MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling
- Title(参考訳): MPM:masked Pose Modelingによる2D-3D人物表現の統一化
- Authors: Zhenyu Zhang, Wenhao Chai, Zhongyu Jiang, Tian Ye, Mingli Song, Jenq-Neng Hwang, Gaoang Wang,
- Abstract要約: mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 59.74064212110042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human poses only from a 2D human pose sequence is thoroughly explored in recent years. Yet, prior to this, no such work has attempted to unify 2D and 3D pose representations in the shared feature space. In this paper, we propose \mpm, a unified 2D-3D human pose representation framework via masked pose modeling. We treat 2D and 3D poses as two different modalities like vision and language and build a single-stream transformer-based architecture. We apply two pretext tasks, which are masked 2D pose modeling, and masked 3D pose modeling to pre-train our network and use full-supervision to perform further fine-tuning. A high masking ratio of $71.8~\%$ in total with a spatio-temporal mask sampling strategy leads to better relation modeling both in spatial and temporal domains. \mpm~can handle multiple tasks including 3D human pose estimation, 3D pose estimation from occluded 2D pose, and 3D pose completion in a \textbf{single} framework. We conduct extensive experiments and ablation studies on several widely used human pose datasets and achieve state-of-the-art performance on MPI-INF-3DHP.
- Abstract(参考訳): 近年,2次元の人間のポーズシーケンスのみから3次元のポーズを推定する手法が徹底的に研究されている。
しかし、それ以前には、共有特徴空間における2Dと3Dのポーズ表現を統一する試みは行われていない。
本稿では,マスク付きポーズモデリングによる2次元3次元人間のポーズ表現フレームワークである \mpm を提案する。
2Dと3Dのポーズを視覚と言語という2つの異なるモダリティとして扱い、シングルストリームトランスフォーマーベースのアーキテクチャを構築します。
マスク付き2次元ポーズモデリングとマスク付き3次元ポーズモデリングの2つのプレテキストタスクを適用し、ネットワークを事前訓練し、フルスーパービジョンを使用してさらなる微調整を行う。
高マスキング比71.8~\%$と時空間マスクサンプリング戦略は空間領域と時空間領域の両方においてより良い関係モデリングをもたらす。
3D人間のポーズ推定、隠蔽された2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextbf{single}フレームワークで処理できる。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone [4.648549457266638]
本研究は,教師なし多人数2D-3Dポーズ推定の実現可能性について検討した最初の研究の1つである。
本手法では,各被験者の2次元ポーズを3次元に独立に持ち上げ,それらを共有3次元座標系で組み合わせる。
これにより、ポーズの正確な3D再構成を検索することができる。
論文 参考訳(メタデータ) (2023-09-26T11:42:56Z) - SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low
Dimensional Space [14.81199315166042]
本研究では,多次元再投影と教師あり学習を混合した3次元人間のポーズ推定手法を提案する。
提案手法は,データセットHuman3.6Mの推定結果に基づいて,定性的にも定量的にも,多くの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-04T00:51:00Z) - SVMA: A GAN-based model for Monocular 3D Human Pose Estimation [0.8379286663107844]
1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。
再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。
Human3.6Mの結果,本手法は最先端の手法を全て上回り,MPI-INF-3DHPの手法は最先端の手法を約15.0%上回ることがわかった。
論文 参考訳(メタデータ) (2021-06-10T09:43:57Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。