論文の概要: 3D Human Pose Estimation with Spatial and Temporal Transformers
- arxiv url: http://arxiv.org/abs/2103.10455v1
- Date: Thu, 18 Mar 2021 18:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:41:07.103057
- Title: 3D Human Pose Estimation with Spatial and Temporal Transformers
- Title(参考訳): 時空間変圧器を用いた3次元ポーズ推定
- Authors: Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang, Chen Chen,
Zhengming Ding
- Abstract要約: PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
- 参考スコア(独自算出の注目度): 59.433208652418976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures have become the model of choice in natural language
processing and are now being introduced into computer vision tasks such as
image classification, object detection, and semantic segmentation. However, in
the field of human pose estimation, convolutional architectures still remain
dominant. In this work, we present PoseFormer, a purely transformer-based
approach for 3D human pose estimation in videos without convolutional
architectures involved. Inspired by recent developments in vision transformers,
we design a spatial-temporal transformer structure to comprehensively model the
human joint relations within each frame as well as the temporal correlations
across frames, then output an accurate 3D human pose of the center frame. We
quantitatively and qualitatively evaluate our method on two popular and
standard benchmark datasets: Human3.6M and MPI-INF-3DHP. Extensive experiments
show that PoseFormer achieves state-of-the-art performance on both datasets.
Code is available at \url{https://github.com/zczcwh/PoseFormer}
- Abstract(参考訳): トランスフォーマーアーキテクチャは自然言語処理における選択モデルとなり、画像分類、オブジェクト検出、セマンティックセグメンテーションといったコンピュータビジョンタスクに導入されている。
しかし、人間のポーズ推定の分野では、畳み込みアーキテクチャが依然として支配的である。
本研究では,畳み込み構造を含まない映像における3次元ポーズ推定のための純粋トランスフォーマーであるposeformerを提案する。
近年の視覚トランスフォーマーの発展に触発されて,各フレーム内の人間の関節関係とフレーム間の時間相関を包括的にモデル化し,センターフレームの正確な3次元人間のポーズを出力する空間-時空間トランスフォーマー構造を設計した。
我々は,Human3.6M と MPI-INF-3DHP の2つの一般的なベンチマークデータセットに対して,この手法を定量的に定性的に評価した。
広範な実験により、sponsformerは両方のデータセットで最先端のパフォーマンスを達成している。
コードは \url{https://github.com/zczcwh/PoseFormer} で入手できる。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - Multiple View Geometry Transformers for 3D Human Pose Estimation [35.26756920323391]
多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。
本稿では,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。
論文 参考訳(メタデータ) (2023-11-18T06:32:40Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - ProtoRes: Proto-Residual Architecture for Deep Modeling of Human Pose [6.9997407868865364]
我々はスパースと可変ユーザ入力に基づいて、フル静的な人間のポーズを構築する問題に取り組む。
本稿では,残余接続と部分的に指定されたポーズのプロトタイプエンコーディングを組み合わせて,新しい完全ポーズを生成するニューラルアーキテクチャを提案する。
リアルタイム3D開発プラットフォームであるUnityにニューラルネットワークを統合するためのユーザインターフェースを開発しました。
論文 参考訳(メタデータ) (2021-06-03T16:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。