論文の概要: Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video
- arxiv url: http://arxiv.org/abs/2308.10305v1
- Date: Sun, 20 Aug 2023 16:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:18:45.334785
- Title: Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video
- Title(参考訳): 映像からの3次元人体推定のためのポーズとメッシュの共進化
- Authors: Yingxuan You, Hong Liu, Ti Wang, Wenhao Li, Runwei Ding, Xia Li
- Abstract要約: ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 23.93644678238666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in single image-based 3D human mesh recovery,
accurately and smoothly recovering 3D human motion from a video remains
challenging. Existing video-based methods generally recover human mesh by
estimating the complex pose and shape parameters from coupled image features,
whose high complexity and low representation ability often result in
inconsistent pose motion and limited shape patterns. To alleviate this issue,
we introduce 3D pose as the intermediary and propose a Pose and Mesh
Co-Evolution network (PMCE) that decouples this task into two parts: 1)
video-based 3D human pose estimation and 2) mesh vertices regression from the
estimated 3D pose and temporal image feature. Specifically, we propose a
two-stream encoder that estimates mid-frame 3D pose and extracts a temporal
image feature from the input image sequence. In addition, we design a
co-evolution decoder that performs pose and mesh interactions with the
image-guided Adaptive Layer Normalization (AdaLN) to make pose and mesh fit the
human body shape. Extensive experiments demonstrate that the proposed PMCE
outperforms previous state-of-the-art methods in terms of both per-frame
accuracy and temporal consistency on three benchmark datasets: 3DPW, Human3.6M,
and MPI-INF-3DHP. Our code is available at https://github.com/kasvii/PMCE.
- Abstract(参考訳): 単一の画像に基づく3Dメッシュの復元は大幅に進歩したが、ビデオから正確にスムーズに人間の動きを回収することは依然として困難である。
既存のビデオベースの手法では、複雑なポーズと形状パラメータを結合した画像特徴から推定することで、人間のメッシュを復元することが一般的である。
この問題を軽減するため、3Dポーズを仲介として導入し、このタスクを2つの部分に分割する Pose and Mesh Co-Evolution Network (PMCE) を提案する。
1)3次元人物ポーズ推定と映像化
2)メッシュ頂点は推定3次元ポーズと時間的画像特徴から回帰する。
具体的には,中間フレームの3次元ポーズを推定し,入力画像列から時間的特徴を抽出する2ストリームエンコーダを提案する。
さらに,画像誘導適応層正規化(adaln)とポーズとメッシュの相互作用を行い,ポーズとメッシュを人体形状に適合させる共進化デコーダの設計を行った。
大規模な実験により、PMCEは3DPW、Human3.6M、MPI-INF-3DHPの3つのベンチマークデータセットにおいて、フレーム毎の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れていることが示された。
私たちのコードはhttps://github.com/kasvii/pmceで利用可能です。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation [7.22614468437919]
既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
本稿では,RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定手法を提案する。
TAPEは標準ベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-29T06:08:43Z) - Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens [34.50928515515274]
モノクロ映像から3次元人物のポーズと形状を推定する新しい手法を提案する。
提案手法は,3DPWおよびHuman3.6Mデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T07:48:01Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。