論文の概要: Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens
- arxiv url: http://arxiv.org/abs/2303.00298v1
- Date: Wed, 1 Mar 2023 07:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:44:30.643942
- Title: Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens
- Title(参考訳): すべての関節の動きを捉える:3次元人間のポーズと独立トークンによる形状推定
- Authors: Sen Yang and Wen Heng and Gang Liu and Guozhong Luo and Wankou Yang
and Gang Yu
- Abstract要約: モノクロ映像から3次元人物のポーズと形状を推定する新しい手法を提案する。
提案手法は,3DPWおよびHuman3.6Mデータセット上での優れた性能を実現する。
- 参考スコア(独自算出の注目度): 34.50928515515274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present a novel method to estimate 3D human pose and shape
from monocular videos. This task requires directly recovering pixel-alignment
3D human pose and body shape from monocular images or videos, which is
challenging due to its inherent ambiguity. To improve precision, existing
methods highly rely on the initialized mean pose and shape as prior estimates
and parameter regression with an iterative error feedback manner. In addition,
video-based approaches model the overall change over the image-level features
to temporally enhance the single-frame feature, but fail to capture the
rotational motion at the joint level, and cannot guarantee local temporal
consistency. To address these issues, we propose a novel Transformer-based
model with a design of independent tokens. First, we introduce three types of
tokens independent of the image feature: \textit{joint rotation tokens, shape
token, and camera token}. By progressively interacting with image features
through Transformer layers, these tokens learn to encode the prior knowledge of
human 3D joint rotations, body shape, and position information from large-scale
data, and are updated to estimate SMPL parameters conditioned on a given image.
Second, benefiting from the proposed token-based representation, we further use
a temporal model to focus on capturing the rotational temporal information of
each joint, which is empirically conducive to preventing large jitters in local
parts. Despite being conceptually simple, the proposed method attains superior
performances on the 3DPW and Human3.6M datasets. Using ResNet-50 and
Transformer architectures, it obtains 42.0 mm error on the PA-MPJPE metric of
the challenging 3DPW, outperforming state-of-the-art counterparts by a large
margin. Code will be publicly available at
https://github.com/yangsenius/INT_HMR_Model
- Abstract(参考訳): 本稿では,モノクロ映像から3次元人間のポーズと形状を推定する新しい手法を提案する。
このタスクは、モノクロ画像やビデオから、ピクセルアライメント3Dの人間のポーズと身体の形状を直接復元する必要がある。
精度を向上させるために、既存の手法は初期化平均ポーズと形状を事前推定とパラメータ回帰を反復的な誤差フィードバック方式に頼っている。
さらに、映像ベースアプローチは、画像レベルの特徴の全体的な変化をモデル化して、単一フレームの特徴を時間的に強化するが、ジョイントレベルでの回転運動を捉えられず、局所的な時間的一貫性を保証できない。
これらの問題を解決するために,独立トークンの設計によるトランスフォーマーモデルを提案する。
まず、画像の特徴に依存しない3種類のトークンを紹介します: \textit{joint rotation tokens, shape token, camera token}。
トランスフォーマー層を介して画像特徴と段階的に相互作用することにより、これらのトークンは、人間の3次元関節回転、体形、位置情報の事前知識を大規模データから符号化し、所定の画像に条件付きSMPLパラメータを推定するために更新される。
第二に,提案したトークンベース表現の利点により,各関節の回転時間情報を捉えることに集中する時間モデルが,局所的に大きなジッタを防止できることを示す。
概念的には単純だが,提案手法は3DPWとHuman3.6Mデータセットにおいて優れた性能を発揮する。
ResNet-50とTransformerアーキテクチャを用いて、挑戦的な3DPWのPA-MPJPEで42.0mmの誤差を得る。
コードはhttps://github.com/yangsenius/INT_HMR_Modelで公開される。
関連論文リスト
- 4DPV: 4D Pet from Videos by Coarse-to-Fine Non-Rigid Radiance Fields [16.278222277579655]
野生の複数のRGB配列からカメラのポーズと未知の物体の4次元再構成を復元するための粗大なニューラルモデルを提案する。
提案手法では,事前構築した3Dテンプレートや3Dトレーニングデータ,制御条件を考慮しない。
複素および実世界の変形を伴う挑戦シナリオにおいて,本手法を徹底的に検証する。
論文 参考訳(メタデータ) (2024-11-15T15:31:58Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。