論文の概要: KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2404.00658v2
- Date: Tue, 2 Apr 2024 06:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:30:41.710213
- Title: KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation
- Title(参考訳): KTPFormer:3次元人文推定のためのキネマティクスと軌道事前知識強化変換器
- Authors: Jihua Peng, Yanghong Zhou, P. Y. Mok,
- Abstract要約: 我々は、Kinematics Prior Attention (KPA) と Trajectory Prior Attention (TPA) の2つの事前注意モジュールを提案する。
KPAは運動学のトポロジを構築して人体の運動関係をモデル化し、TPAは軌道トポロジを構築し、フレーム間の関節運動のトポロジの情報を学習する。
3つのベンチマーク(Human3.6M、MPI-INF-3DHP、HumanEva)の大規模な実験は、KTPFormerが最先端の手法と比較して優れた性能を発揮することを示している。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel Kinematics and Trajectory Prior Knowledge-Enhanced Transformer (KTPFormer), which overcomes the weakness in existing transformer-based methods for 3D human pose estimation that the derivation of Q, K, V vectors in their self-attention mechanisms are all based on simple linear mapping. We propose two prior attention modules, namely Kinematics Prior Attention (KPA) and Trajectory Prior Attention (TPA) to take advantage of the known anatomical structure of the human body and motion trajectory information, to facilitate effective learning of global dependencies and features in the multi-head self-attention. KPA models kinematic relationships in the human body by constructing a topology of kinematics, while TPA builds a trajectory topology to learn the information of joint motion trajectory across frames. Yielding Q, K, V vectors with prior knowledge, the two modules enable KTPFormer to model both spatial and temporal correlations simultaneously. Extensive experiments on three benchmarks (Human3.6M, MPI-INF-3DHP and HumanEva) show that KTPFormer achieves superior performance in comparison to state-of-the-art methods. More importantly, our KPA and TPA modules have lightweight plug-and-play designs and can be integrated into various transformer-based networks (i.e., diffusion-based) to improve the performance with only a very small increase in the computational overhead. The code is available at: https://github.com/JihuaPeng/KTPFormer.
- Abstract(参考訳): 本稿では,従来の3次元ポーズ推定手法の弱点を克服し,Q,K,Vベクトルの自己認識機構の導出がすべて単純な線形写像に基づいていることを示す,KTPFormer(Kinematics and Trajectory Prior Knowledge-Enhanced Transformer)を提案する。
我々は,人体の解剖学的構造と運動軌跡情報を活用するために,Kinematics Prior Attention (KPA) と Trajectory Prior Attention (TPA) の2つの事前注意モジュールを提案する。
KPAは運動学のトポロジを構築して人体の運動関係をモデル化し、TPAは軌道トポロジを構築し、フレーム間の関節運動のトポロジの情報を学習する。
Q, K, V ベクトルを事前の知識で得られることにより、KTPFormer は空間的および時間的相関を同時にモデル化することができる。
3つのベンチマーク(Human3.6M、MPI-INF-3DHP、HumanEva)の大規模な実験は、KTPFormerが最先端の手法と比較して優れた性能を発揮することを示している。
さらに重要なことは、我々のKPAモジュールとTPAモジュールは軽量なプラグアンドプレイ設計を持ち、様々なトランスフォーマーベースネットワーク(つまり拡散ベース)に統合することで、計算オーバーヘッドをわずかに増加させるだけで性能を向上させることができる。
コードは、https://github.com/JihuaPeng/KTPFormer.comで入手できる。
関連論文リスト
- ICP-Flow: LiDAR Scene Flow Estimation with ICP [2.9290232815049926]
シーンフローは、近くの時間ステップで自動運転車が捉えた2つのLiDARスキャン間の3D運動を特徴付ける。
我々は,学習不要なフロー推定器であるICP-Flowを提案し,オブジェクトをスキャン上で関連付け,局所的な剛性変換を推定する。
教師付きモデルを含む最先端のベースラインをデータセット上で上回り、Argoverse-v2とnuScenesで競合的に実行します。
論文 参考訳(メタデータ) (2024-02-27T09:41:59Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Refined Temporal Pyramidal Compression-and-Amplification Transformer for
3D Human Pose Estimation [26.61672772233569]
ビデオシーケンス中の人間の3Dポーズを正確に推定するには、精度とよく構造化されたアーキテクチャの両方が必要である。
本稿では,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)変換器を紹介する。
本稿では,Human3.6M,HumanEva-I,MPI-INF-3DHPベンチマーク上でのRTPCAの有効性を示す。
論文 参考訳(メタデータ) (2023-09-04T05:25:10Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。