論文の概要: TCPFormer: Learning Temporal Correlation with Implicit Pose Proxy for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2501.01770v1
- Date: Fri, 03 Jan 2025 11:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:32.858891
- Title: TCPFormer: Learning Temporal Correlation with Implicit Pose Proxy for 3D Human Pose Estimation
- Title(参考訳): TCPFormer:3次元人文推定のための暗黙のプロキシによる時間的相関学習
- Authors: Jiajie Liu, Mengyuan Liu, Hong Liu, Wenhao Li,
- Abstract要約: 中間表現として暗黙のポーズプロキシを利用するTCPFormerを提案する。
提案手法は,PUM(Proxy Update Module),PIM(Proxy Invocation Module),PAM(Proxy Attention Module)の3つの重要なコンポーネントから構成される。
Human3.6M と MPI-INF-3DHP データセットの実験により,提案した TCPFormer が従来の最先端手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 24.984888256276676
- License:
- Abstract: Recent multi-frame lifting methods have dominated the 3D human pose estimation. However, previous methods ignore the intricate dependence within the 2D pose sequence and learn single temporal correlation. To alleviate this limitation, we propose TCPFormer, which leverages an implicit pose proxy as an intermediate representation. Each proxy within the implicit pose proxy can build one temporal correlation therefore helping us learn more comprehensive temporal correlation of human motion. Specifically, our method consists of three key components: Proxy Update Module (PUM), Proxy Invocation Module (PIM), and Proxy Attention Module (PAM). PUM first uses pose features to update the implicit pose proxy, enabling it to store representative information from the pose sequence. PIM then invocates and integrates the pose proxy with the pose sequence to enhance the motion semantics of each pose. Finally, PAM leverages the above mapping between the pose sequence and pose proxy to enhance the temporal correlation of the whole pose sequence. Experiments on the Human3.6M and MPI-INF-3DHP datasets demonstrate that our proposed TCPFormer outperforms the previous state-of-the-art methods.
- Abstract(参考訳): 最近の多フレーム昇降法は3次元人間のポーズ推定を支配している。
しかし,従来の手法では2次元ポーズシーケンス内の複雑な依存を無視し,単一時間相関を学習する。
この制限を緩和するために、中間表現として暗黙のポーズプロキシを利用するTCPFormerを提案する。
暗黙のポーズプロキシ内の各プロキシは1つの時間的相関を構築できるので、人間の動きのより包括的な時間的相関を学習するのに役立ちます。
具体的には、PUM(Proxy Update Module)、PIM(Proxy Invocation Module)、PAM(Proxy Attention Module)の3つの重要なコンポーネントから構成される。
PUMはまず、ポーズ機能を使用して暗黙のポーズプロキシを更新し、ポーズシーケンスから代表情報を格納する。
PIMは、各ポーズの動作セマンティクスを強化するために、ポーズプロキシをポーズシーケンスに呼び出し、統合する。
最後に、PAMは、上記のポーズシーケンスとポーズプロキシ間のマッピングを利用して、ポーズシーケンス全体の時間的相関を強化する。
Human3.6M と MPI-INF-3DHP データセットの実験により,提案した TCPFormer が従来の最先端手法より優れていることを示す。
関連論文リスト
- Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation [6.359236783105098]
前者は、システムに関する信念や仮定の集合を表します。
本稿では,ポーズ推定における教師なしカテゴリー事前学習の課題を紹介する。
本稿では,PPL (Pose Prior Learner) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:43:27Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.91374799527015]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を考察する枠組みを提案する。
主な考え方は、ポーズ先行と拡散モデルの潜在表現の間のグラフ位相構造を確立することである。
事前訓練されたポーズ推定ネットワークに基づいてポーズ知覚損失を導入し、ポーズ差を最小限にする。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - ActionPrompt: Action-Guided 3D Human Pose Estimation With Text and Pose
Prompting [42.70886372894809]
本稿では,Action Prompt Module (APM) と呼ばれる3次元ポーズ推定のための様々なアクションヒントを効果的にマイニングするプラグイン・アンド・プレイモジュールを提案する。
具体的には、アクションラベルを直接埋め込み、ラベル内のリッチ言語情報をポーズシーケンスに転送する新しいアクション関連テキストプロンプトモジュール(ATP)を最初に提示する。
さらに,各アクションの位置認識ポーズパターンをマイニングするために,アクション固有のPose Promptモジュール(APP)を導入する。
論文 参考訳(メタデータ) (2023-07-18T07:34:04Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。