Fugu-MT 論文翻訳(概要): CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose Estimation

論文の概要: CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose Estimation

arxiv url: http://arxiv.org/abs/2203.13387v1
Date: Thu, 24 Mar 2022 23:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 00:32:01.996255
Title: CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose Estimation
Title（参考訳）: CrossFormer: 人間の3次元姿勢推定のためのクロス時空間変換器
Authors: Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, and Ibrahim Radwan
Abstract要約: 3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
参考スコア（独自算出の注目度）: 24.08170512746056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D human pose estimation can be handled by encoding the geometric dependencies between the body parts and enforcing the kinematic constraints. Recently, Transformer has been adopted to encode the long-range dependencies between the joints in the spatial and temporal domains. While they had shown excellence in long-range dependencies, studies have noted the need for improving the locality of vision Transformers. In this direction, we propose a novel pose estimation Transformer featuring rich representations of body joints critical for capturing subtle changes across frames (i.e., inter-feature representation). Specifically, through two novel interaction modules; Cross-Joint Interaction and Cross-Frame Interaction, the model explicitly encodes the local and global dependencies between the body joints. The proposed architecture achieved state-of-the-art performance on two popular 3D human pose estimation datasets, Human3.6 and MPI-INF-3DHP. In particular, our proposed CrossFormer method boosts performance by 0.9% and 0.3%, compared to the closest counterpart, PoseFormer, using the detected 2D poses and ground-truth settings respectively.
Abstract（参考訳）: 3次元人間のポーズ推定は、身体部位間の幾何学的依存関係をエンコードし、運動的制約を強制することによって処理できる。近年,空間領域と時間領域の関節間の長距離依存性を符号化するトランスフォーマが採用されている。彼らは長距離の依存関係において卓越性を示したが、研究は視覚トランスフォーマーの局所性を改善する必要性を指摘している。本稿では,フレーム間の微妙な変化(すなわち特徴間表現)を捉えるために重要な身体関節のリッチな表現を特徴とする新しいポーズ推定トランスを提案する。具体的には、2つの新しいインタラクションモジュール、すなわちクロスジョイントインタラクションとクロスフレームインタラクションを通じて、このモデルは、ボディジョイント間の局所的およびグローバルな依存関係を明示的にエンコードする。提案アーキテクチャは,Human3.6とMPI-INF-3DHPの2つの一般的な3次元ポーズ推定データセットに対して,最先端の性能を達成した。特に,提案手法は,検出された2dポーズと地表面設定を用いて,最も近いポーズフォーマーと比較して,0.9%,0.3%向上する。

関連論文リスト

PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation [5.223657684081615]
既存の単眼的な3次元ポーズ推定法は, 骨格の内在方向と角方向の相関性を見越しながら, 関節位置の特徴に依存している。これらの課題に対処するためのPoseGRAFフレームワークを提案する。 Human3.6M と MPI-INF-3DHP のデータセットによる実験結果から,本手法が最先端の手法を超えることが示された。
論文参考訳（メタデータ） (2025-06-17T14:59:56Z)
Unsupervised Cross-Domain 3D Human Pose Estimation via Pseudo-Label-Guided Global Transforms [17.801307669723634]
ポーズ位置間のグローバルな変換を行う新しいフレームワークを提案する。 Pose Augmentorは、人間の姿勢と体の大きさの変化に対処するために組み込まれている。提案手法は最先端の手法より優れ、目標学習モデルよりも優れる。
論文参考訳（メタデータ） (2025-04-17T06:57:20Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文参考訳（メタデータ） (2024-04-19T04:51:18Z)
Double-chain Constraints for 3D Human Pose Estimation in Images and Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2023-08-10T02:41:18Z)
Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文参考訳（メタデータ） (2023-03-26T14:57:49Z)
(Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文参考訳（メタデータ） (2022-10-08T12:22:10Z)
Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文参考訳（メタデータ） (2022-04-05T03:52:57Z)
MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文参考訳（メタデータ） (2022-03-02T04:20:59Z)
3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文参考訳（メタデータ） (2021-03-18T18:14:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。