論文の概要: RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation
- arxiv url: http://arxiv.org/abs/2407.08634v1
- Date: Thu, 11 Jul 2024 16:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:40:31.957140
- Title: RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation
- Title(参考訳): RTMW: リアルタイムマルチパーソン2Dと3D全身ポス推定
- Authors: Tao Jiang, Xinchen Xie, Yining Li,
- Abstract要約: 全体ポーズ推定は、人体のきめ細かいポーズ情報を予測することを目的としている。
本稿では,RTMW (Real-Time Multi-person Whole-body pose Estimation model) について述べる。
- 参考スコア(独自算出の注目度): 9.121372333621538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body pose estimation is a challenging task that requires simultaneous prediction of keypoints for the body, hands, face, and feet. Whole-body pose estimation aims to predict fine-grained pose information for the human body, including the face, torso, hands, and feet, which plays an important role in the study of human-centric perception and generation and in various applications. In this work, we present RTMW (Real-Time Multi-person Whole-body pose estimation models), a series of high-performance models for 2D/3D whole-body pose estimation. We incorporate RTMPose model architecture with FPN and HEM (Hierarchical Encoding Module) to better capture pose information from different body parts with various scales. The model is trained with a rich collection of open-source human keypoint datasets with manually aligned annotations and further enhanced via a two-stage distillation strategy. RTMW demonstrates strong performance on multiple whole-body pose estimation benchmarks while maintaining high inference efficiency and deployment friendliness. We release three sizes: m/l/x, with RTMW-l achieving a 70.2 mAP on the COCO-Wholebody benchmark, making it the first open-source model to exceed 70 mAP on this benchmark. Meanwhile, we explored the performance of RTMW in the task of 3D whole-body pose estimation, conducting image-based monocular 3D whole-body pose estimation in a coordinate classification manner. We hope this work can benefit both academic research and industrial applications. The code and models have been made publicly available at: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose
- Abstract(参考訳): 全身のポーズ推定は、身体、手、顔、足のキーポイントの同時予測を必要とする困難なタスクである。
全身のポーズ推定は、顔、胴体、手、足などの人体に対するきめ細かいポーズ情報を予測することを目的としており、人中心の知覚と生成の研究や様々な応用において重要な役割を果たしている。
本研究では,RTMW (Real-Time Multi-person Whole-body pose Estimation model) について述べる。
RTMPoseモデルアーキテクチャをFPNとHEM (Hierarchical Encoding Module) に組み込んで、様々なスケールで様々な身体部分からポーズ情報をよりよくキャプチャする。
このモデルは、手動でアライメントされたアノテーションを備えたオープンソースの人間のキーポイントデータセットの豊富なコレクションでトレーニングされ、2段階の蒸留戦略によってさらに強化される。
RTMWは、高い推論効率とデプロイメントフレンドリさを維持しながら、複数のボディ全体のポーズ推定ベンチマークで強力なパフォーマンスを示す。
RTMW-lはCOCO-Wholebodyベンチマークで70.2mAPに達し、このベンチマークで70mAPを超えた最初のオープンソースモデルとなった。
一方,RTMWの3次元一眼レフポーズ推定における性能について検討し,画像に基づく一眼レフポーズ推定を座標分類法で実施した。
この研究が学術研究と産業応用の両方に利益をもたらすことを願っている。
コードとモデルは、https://github.com/open-mmlab/mmpose/tree/main/projects/rtmposeで公開されている。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。