論文の概要: HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2301.07322v1
- Date: Wed, 18 Jan 2023 05:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:46:45.104131
- Title: HSTFormer: Hierarchical Spatial-Temporal Transformers for 3D Human Pose
Estimation
- Title(参考訳): HSTFormer:3次元人物位置推定のための階層型空間時間変換器
- Authors: Xiaoye Qian, Youbao Tang, Ning Zhang, Mei Han, Jing Xiao, Ming-Chun
Huang, Ruei-Sung Lin
- Abstract要約: 我々は階層型空間時間変換器 (HSTFormer) を提案し, 高精度な3次元ポーズ推定のために, 多段階関節の時空間相関を局所的からグローバル的に徐々に捉えている。
HSTFormerは4つの変換器エンコーダ(TE)と1つの融合モジュールから構成される。
MPI-INF-3DHPデータセットと小規模のHumanEvaデータセットに関する最近のSOTAを、高度に一般化された体系的アプローチで超越している。
- 参考スコア(独自算出の注目度): 22.648409352844997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based approaches have been successfully proposed for 3D human
pose estimation (HPE) from 2D pose sequence and achieved state-of-the-art
(SOTA) performance. However, current SOTAs have difficulties in modeling
spatial-temporal correlations of joints at different levels simultaneously.
This is due to the poses' spatial-temporal complexity. Poses move at various
speeds temporarily with various joints and body-parts movement spatially.
Hence, a cookie-cutter transformer is non-adaptable and can hardly meet the
"in-the-wild" requirement. To mitigate this issue, we propose Hierarchical
Spatial-Temporal transFormers (HSTFormer) to capture multi-level joints'
spatial-temporal correlations from local to global gradually for accurate 3D
HPE. HSTFormer consists of four transformer encoders (TEs) and a fusion module.
To the best of our knowledge, HSTFormer is the first to study hierarchical TEs
with multi-level fusion. Extensive experiments on three datasets (i.e.,
Human3.6M, MPI-INF-3DHP, and HumanEva) demonstrate that HSTFormer achieves
competitive and consistent performance on benchmarks with various scales and
difficulties. Specifically, it surpasses recent SOTAs on the challenging
MPI-INF-3DHP dataset and small-scale HumanEva dataset, with a highly
generalized systematic approach. The code is available at:
https://github.com/qianxiaoye825/HSTFormer.
- Abstract(参考訳): トランスフォーマーに基づくアプローチは、2次元ポーズシーケンスから3次元ポーズ推定(HPE)に成功し、最先端(SOTA)性能を達成した。
しかし、現在のSOTAは、異なるレベルの関節の空間的時間的相関を同時にモデル化することは困難である。
これはポーズの時空間的複雑さによる。
ポーズは、様々な関節や身体の一部が空間的に動きながら、一時的に様々な速度で動きます。
したがって、クッキー・カッター変圧器は対応不能であり、"in-the-wild"要件を満たさない。
この問題を軽減するために,階層型空間時間変換器(HSTFormer)を提案する。
HSTFormerは4つのトランスフォーマーエンコーダ(TE)と融合モジュールで構成される。
我々の知る限りでは、HSTFormerは階層的なTEをマルチレベル融合で研究した最初の人です。
3つのデータセット(Human3.6M、MPI-INF-3DHP、HumanEva)の大規模な実験により、HSTFormerは様々なスケールと難易度を持つベンチマーク上で、競争力と一貫性のあるパフォーマンスを達成することが示された。
具体的には、MPI-INF-3DHPデータセットと小規模のHumanEvaデータセットに関する最近のSOTAを、高度に一般化された体系的アプローチで超越している。
コードはhttps://github.com/qianxiaoye825/hstformerで入手できる。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - ConvFormer: Parameter Reduction in Transformer Models for 3D Human Pose
Estimation by Leveraging Dynamic Multi-Headed Convolutional Attention [0.0]
textbftextitConvFormerは、3D人間のポーズ推定タスクのための新しい畳み込み変換器である。
我々は,Human3.6M,MPI-INF-3DHP,HumanEvaの3つのベンチマークデータセットで本手法を検証した。
論文 参考訳(メタデータ) (2023-04-04T22:23:50Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - HDFormer: High-order Directed Transformer for 3D Human Pose Estimation [20.386530242069338]
HDFormerは、Human3.6MとMPI-INF-3DHPデータセットの最先端(SOTA)モデルを大幅に上回っている。
HDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。
論文 参考訳(メタデータ) (2023-02-03T16:00:48Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。