論文の概要: P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2203.07628v1
- Date: Tue, 15 Mar 2022 04:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 14:52:53.297538
- Title: P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation
- Title(参考訳): P-STMO:3次元人文推定のための事前学習型時空間多対一モデル
- Authors: Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Wen
Gao
- Abstract要約: 本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 78.83305967085413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel Pre-trained Spatial Temporal Many-to-One
(P-STMO) model for 2D-to-3D human pose estimation task. To reduce the
difficulty of capturing spatial and temporal information, we divide this task
into two stages: pre-training (Stage I) and fine-tuning (Stage II). In Stage I,
a self-supervised pre-training sub-task, termed masked pose modeling, is
proposed. The human joints in the input sequence are randomly masked in both
spatial and temporal domains. A general form of denoising auto-encoder is
exploited to recover the original 2D poses and the encoder is capable of
capturing spatial and temporal dependencies in this way. In Stage II, the
pre-trained encoder is loaded to STMO model and fine-tuned. The encoder is
followed by a many-to-one frame aggregator to predict the 3D pose in the
current frame. Especially, an MLP block is utilized as the spatial feature
extractor in STMO, which yields better performance than other methods. In
addition, a temporal downsampling strategy is proposed to diminish data
redundancy. Extensive experiments on two benchmarks show that our method
outperforms state-of-the-art methods with fewer parameters and less
computational overhead. For example, our P-STMO model achieves 42.1mm MPJPE on
Human3.6M dataset when using 2D poses from CPN as inputs. Meanwhile, it brings
a 1.5-7.1 times speedup to state-of-the-art methods. Code is available at
https://github.com/paTRICK-swk/P-STMO.
- Abstract(参考訳): 本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
空間的・時間的情報収集の難しさを軽減するため,この課題を事前学習(ステップI)と微調整(ステップII)の2段階に分けた。
第1段階では、マスク付きポーズモデリングと呼ばれる、自己教師付き事前学習サブタスクが提案されている。
入力シーケンス内のヒト関節は、空間領域と時間領域の両方でランダムにマスクされる。
一般的なオートエンコーダを用いて元の2Dポーズを復元し、この方法で空間的および時間的依存関係をキャプチャすることができる。
ステージIIでは、事前訓練されたエンコーダがSTMOモデルにロードされ、微調整される。
エンコーダには、現在のフレーム内の3Dポーズを予測する多対一のフレームアグリゲータが続く。
特に、MLPブロックをSTMOの空間特徴抽出器として利用し、他の方法よりも優れた性能が得られる。
さらに,データ冗長性を低下させるため,時間的ダウンサンプリング戦略を提案する。
2つのベンチマーク実験により,本手法はパラメータが少なく,計算オーバーヘッドが少なく,最先端の手法よりも優れていることが示された。
例えば、P-STMOモデルはCPNからの2Dポーズを入力として使用する場合、Human3.6Mデータセット上で42.1mmMPJPEを達成する。
一方、最先端の手法に1.5-7.1倍のスピードアップをもたらす。
コードはhttps://github.com/paTRICK-swk/P-STMOで入手できる。
関連論文リスト
- SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling [32.81602976390584]
本研究では,2次元関節型VQVAE,時間空間型2次元マスキング技術,時空間型2次元アテンションを提案する2次元運動量子化フレームワークを構築した。
提案手法は,HumanML3DではFIDが26.6%,KIT-MLでは29.9%,従来の手法よりも大幅に向上した。
論文 参考訳(メタデータ) (2024-09-26T09:51:11Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting [27.3359362364858]
本稿では,頑健な時間的表現を学習する効率的な多視点ポーズ推定モデルを提案する。
我々のモデルは微調整なしでデータセットをまたいで一般化することができる。
論文 参考訳(メタデータ) (2023-09-14T17:56:30Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。