論文の概要: CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2203.13387v1
- Date: Thu, 24 Mar 2022 23:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 00:32:01.996255
- Title: CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation
- Title(参考訳): CrossFormer: 人間の3次元姿勢推定のためのクロス時空間変換器
- Authors: Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid
Boussaid, and Ibrahim Radwan
- Abstract要約: 3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
- 参考スコア(独自算出の注目度): 24.08170512746056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D human pose estimation can be handled by encoding the geometric
dependencies between the body parts and enforcing the kinematic constraints.
Recently, Transformer has been adopted to encode the long-range dependencies
between the joints in the spatial and temporal domains. While they had shown
excellence in long-range dependencies, studies have noted the need for
improving the locality of vision Transformers. In this direction, we propose a
novel pose estimation Transformer featuring rich representations of body joints
critical for capturing subtle changes across frames (i.e., inter-feature
representation). Specifically, through two novel interaction modules;
Cross-Joint Interaction and Cross-Frame Interaction, the model explicitly
encodes the local and global dependencies between the body joints. The proposed
architecture achieved state-of-the-art performance on two popular 3D human pose
estimation datasets, Human3.6 and MPI-INF-3DHP. In particular, our proposed
CrossFormer method boosts performance by 0.9% and 0.3%, compared to the closest
counterpart, PoseFormer, using the detected 2D poses and ground-truth settings
respectively.
- Abstract(参考訳): 3次元人間のポーズ推定は、身体部位間の幾何学的依存関係をエンコードし、運動的制約を強制することによって処理できる。
近年,空間領域と時間領域の関節間の長距離依存性を符号化するトランスフォーマが採用されている。
彼らは長距離の依存関係において卓越性を示したが、研究は視覚トランスフォーマーの局所性を改善する必要性を指摘している。
本稿では,フレーム間の微妙な変化(すなわち特徴間表現)を捉えるために重要な身体関節のリッチな表現を特徴とする新しいポーズ推定トランスを提案する。
具体的には、2つの新しいインタラクションモジュール、すなわちクロスジョイントインタラクションとクロスフレームインタラクションを通じて、このモデルは、ボディジョイント間の局所的およびグローバルな依存関係を明示的にエンコードする。
提案アーキテクチャは,Human3.6とMPI-INF-3DHPの2つの一般的な3次元ポーズ推定データセットに対して,最先端の性能を達成した。
特に,提案手法は,検出された2dポーズと地表面設定を用いて,最も近いポーズフォーマーと比較して,0.9%,0.3%向上する。
関連論文リスト
- Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z) - PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文 参考訳(メタデータ) (2023-03-30T15:45:51Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。