Fugu-MT 論文翻訳(概要): KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

論文の概要: KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

arxiv url: http://arxiv.org/abs/2404.00658v2
Date: Tue, 2 Apr 2024 06:15:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:30:41.710213
Title: KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation
Title（参考訳）: KTPFormer:3次元人文推定のためのキネマティクスと軌道事前知識強化変換器
Authors: Jihua Peng, Yanghong Zhou, P. Y. Mok,
Abstract要約: 我々は、Kinematics Prior Attention (KPA) と Trajectory Prior Attention (TPA) の2つの事前注意モジュールを提案する。 KPAは運動学のトポロジを構築して人体の運動関係をモデル化し、TPAは軌道トポロジを構築し、フレーム間の関節運動のトポロジの情報を学習する。 3つのベンチマーク(Human3.6M、MPI-INF-3DHP、HumanEva)の大規模な実験は、KTPFormerが最先端の手法と比較して優れた性能を発揮することを示している。
参考スコア（独自算出の注目度）: 2.4578723416255754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel Kinematics and Trajectory Prior Knowledge-Enhanced Transformer (KTPFormer), which overcomes the weakness in existing transformer-based methods for 3D human pose estimation that the derivation of Q, K, V vectors in their self-attention mechanisms are all based on simple linear mapping. We propose two prior attention modules, namely Kinematics Prior Attention (KPA) and Trajectory Prior Attention (TPA) to take advantage of the known anatomical structure of the human body and motion trajectory information, to facilitate effective learning of global dependencies and features in the multi-head self-attention. KPA models kinematic relationships in the human body by constructing a topology of kinematics, while TPA builds a trajectory topology to learn the information of joint motion trajectory across frames. Yielding Q, K, V vectors with prior knowledge, the two modules enable KTPFormer to model both spatial and temporal correlations simultaneously. Extensive experiments on three benchmarks (Human3.6M, MPI-INF-3DHP and HumanEva) show that KTPFormer achieves superior performance in comparison to state-of-the-art methods. More importantly, our KPA and TPA modules have lightweight plug-and-play designs and can be integrated into various transformer-based networks (i.e., diffusion-based) to improve the performance with only a very small increase in the computational overhead. The code is available at: https://github.com/JihuaPeng/KTPFormer.
Abstract（参考訳）: 本稿では,従来の3次元ポーズ推定手法の弱点を克服し,Q,K,Vベクトルの自己認識機構の導出がすべて単純な線形写像に基づいていることを示す,KTPFormer(Kinematics and Trajectory Prior Knowledge-Enhanced Transformer)を提案する。我々は,人体の解剖学的構造と運動軌跡情報を活用するために,Kinematics Prior Attention (KPA) と Trajectory Prior Attention (TPA) の2つの事前注意モジュールを提案する。 KPAは運動学のトポロジを構築して人体の運動関係をモデル化し、TPAは軌道トポロジを構築し、フレーム間の関節運動のトポロジの情報を学習する。 Q, K, V ベクトルを事前の知識で得られることにより、KTPFormer は空間的および時間的相関を同時にモデル化することができる。 3つのベンチマーク(Human3.6M、MPI-INF-3DHP、HumanEva)の大規模な実験は、KTPFormerが最先端の手法と比較して優れた性能を発揮することを示している。さらに重要なことは、我々のKPAモジュールとTPAモジュールは軽量なプラグアンドプレイ設計を持ち、様々なトランスフォーマーベースネットワーク(つまり拡散ベース)に統合することで、計算オーバーヘッドをわずかに増加させるだけで性能を向上させることができる。コードは、https://github.com/JihuaPeng/KTPFormer.comで入手できる。

関連論文リスト

Flow-Through Tensors: A Unified Computational Graph Architecture for Multi-Layer Transportation Network Optimization [20.685856719515026]
Flow Throughs (FTT) は、原点のフロー、経路、確率、およびリンク移動時間を相互接続テンソルとして接続する統一的な計算グラフアーキテクチャである。まず、以前に分離されたモデリング要素間で勾配に基づく最適化を可能にする一貫した数学的構造を確立する。第2に、システム効率の正確な定量化により、時間、空間、ユーザグループのトラフィックパターンの多次元解析をサポートする。
論文参考訳（メタデータ） (2025-06-30T06:42:23Z)
Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。 Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。 Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文参考訳（メタデータ） (2025-05-23T09:31:02Z)
Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文参考訳（メタデータ） (2025-05-08T15:28:09Z)
Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation [5.578771488072936]
一人称3次元人物のポーズ推定には,深度あいまいさ,限られた3次元ラベル付きトレーニングデータ,不均衡モデリング,限定モデル一般化が課題である。本稿では,文脈適応型表現学習に基づくグラウンドブレーキング動作事前学習手法を提案する。本モデルでは,Human3.6MのMPJPEが38.0mm,P-MPJPEが31.9mm,MPPI-INF-3DHPのMPJPEが15.9mmであった。
論文参考訳（メタデータ） (2025-04-02T14:17:57Z)
ICP-Flow: LiDAR Scene Flow Estimation with ICP [2.9290232815049926]
シーンフローは、近くの時間ステップで自動運転車が捉えた2つのLiDARスキャン間の3D運動を特徴付ける。我々は,学習不要なフロー推定器であるICP-Flowを提案し,オブジェクトをスキャン上で関連付け,局所的な剛性変換を推定する。教師付きモデルを含む最先端のベースラインをデータセット上で上回り、Argoverse-v2とnuScenesで競合的に実行します。
論文参考訳（メタデータ） (2024-02-27T09:41:59Z)
F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文参考訳（メタデータ） (2023-12-06T12:34:47Z)
Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文参考訳（メタデータ） (2023-11-20T18:59:51Z)
Refined Temporal Pyramidal Compression-and-Amplification Transformer for 3D Human Pose Estimation [26.61672772233569]
ビデオシーケンス中の人間の3Dポーズを正確に推定するには、精度とよく構造化されたアーキテクチャの両方が必要である。本稿では,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)変換器を紹介する。本稿では,Human3.6M,HumanEva-I,MPI-INF-3DHPベンチマーク上でのRTPCAの有効性を示す。
論文参考訳（メタデータ） (2023-09-04T05:25:10Z)
EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文参考訳（メタデータ） (2023-06-16T04:09:16Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。 Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2022-07-04T16:35:58Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。