論文の概要: MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling
- arxiv url: http://arxiv.org/abs/2306.17201v1
- Date: Thu, 29 Jun 2023 10:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 14:32:37.702445
- Title: MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling
- Title(参考訳): MPM:masked Pose Modelingによる統一2D-3D人物表現
- Authors: Zhenyu Zhang, Wenhao Chai, Zhongyu Jiang, Tian Ye, Mingli Song,
Jenq-Neng Hwang, Gaoang Wang
- Abstract要約: MPMは、3Dの人間のポーズ推定、3Dのポーズ推定、oc 2Dのポーズからの3Dのポーズ推定、単一のフレームワークでの3Dのポーズ完了など、複数のタスクを処理できる。
我々は、広く使われている複数の人間のポーズデータセットに関する広範な実験とアブレーション研究を行っている。
- 参考スコア(独自算出の注目度): 52.48562830046236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human poses only from a 2D human pose sequence is thoroughly
explored in recent years. Yet, prior to this, no such work has attempted to
unify 2D and 3D pose representations in the shared feature space. In this
paper, we propose MPM, a unified 2D-3D human pose representation framework via
masked pose modeling. We treat 2D and 3D poses as two different modalities like
vision and language and build a single-stream transformer-based architecture.
We apply three pretext tasks, which are masked 2D pose modeling, masked 3D pose
modeling, and masked 2D pose lifting to pre-train our network and use
full-supervision to perform further fine-tuning. A high masking ratio of 72.5%
in total with a spatio-temporal mask sampling strategy leading to better
relation modeling both in spatial and temporal domains. MPM can handle multiple
tasks including 3D human pose estimation, 3D pose estimation from occluded 2D
pose, and 3D pose completion in a single framework. We conduct extensive
experiments and ablation studies on several widely used human pose datasets and
achieve state-of-the-art performance on Human3.6M and MPI-INF-3DHP. Codes and
model checkpoints are available at https://github.com/vvirgooo2/MPM
- Abstract(参考訳): 近年,2次元の人間のポーズシーケンスのみから3次元のポーズを推定する手法が徹底的に研究されている。
しかし、それ以前には、共有特徴空間における2Dと3Dのポーズ表現を統一する試みは行われていない。
本稿では,マスク型ポーズモデリングによる2次元3次元人間のポーズ表現フレームワークであるMPMを提案する。
2Dと3Dのポーズを視覚と言語という2つの異なるモダリティとして扱い、シングルストリームトランスフォーマーベースのアーキテクチャを構築します。
我々は,マスキング2次元ポーズモデリング,マスキング3次元ポーズモデリング,マスキング2次元ポーズ昇降という3つのプリテキストタスクを適用し,ネットワークを事前学習し,フルスーパービジョンを用いてさらなる微調整を行う。
マスキング比は72.5%であり、時空間マスキングサンプリング戦略は空間領域と時間領域の両方においてより良い関係モデリングをもたらす。
MPMは、3D人間のポーズ推定、隠された2Dポーズからの3Dポーズ推定、単一のフレームワークでの3Dポーズ完了を含む複数のタスクを処理できる。
我々は、広く使われている人間のポーズデータセットの広範な実験とアブレーション研究を行い、Human3.6MとMPI-INF-3DHPで最先端のパフォーマンスを達成する。
コードとモデルチェックポイントはhttps://github.com/vvirgooo2/MPMで公開されている。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Unsupervised Multi-Person 3D Human Pose Estimation From 2D Poses Alone [4.648549457266638]
本研究は,教師なし多人数2D-3Dポーズ推定の実現可能性について検討した最初の研究の1つである。
本手法では,各被験者の2次元ポーズを3次元に独立に持ち上げ,それらを共有3次元座標系で組み合わせる。
これにより、ポーズの正確な3D再構成を検索することができる。
論文 参考訳(メタデータ) (2023-09-26T11:42:56Z) - SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low
Dimensional Space [14.81199315166042]
本研究では,多次元再投影と教師あり学習を混合した3次元人間のポーズ推定手法を提案する。
提案手法は,データセットHuman3.6Mの推定結果に基づいて,定性的にも定量的にも,多くの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-04T00:51:00Z) - SVMA: A GAN-based model for Monocular 3D Human Pose Estimation [0.8379286663107844]
1枚の画像から抽出した2次元関節位置から3次元人間のポーズを復元するための教師なしGANモデルを提案する。
再投射制約を考慮すると,本モデルはカメラを推定し,推定された3次元ポーズを元の2次元ポーズに再投射することができる。
Human3.6Mの結果,本手法は最先端の手法を全て上回り,MPI-INF-3DHPの手法は最先端の手法を約15.0%上回ることがわかった。
論文 参考訳(メタデータ) (2021-06-10T09:43:57Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。