論文の概要: PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2303.17472v1
- Date: Thu, 30 Mar 2023 15:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:01:43.321884
- Title: PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation
- Title(参考訳): PoseFormerV2: 効率的でロバストな3次元人物位置推定のための周波数領域探索
- Authors: Qitao Zhao, Ce Zheng, Mengyuan Liu, Pichao Wang, Chen Chen
- Abstract要約: 本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
- 参考スコア(独自算出の注目度): 19.028127284305224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have gained significant success in
sequential 2D-to-3D lifting human pose estimation. As a pioneering work,
PoseFormer captures spatial relations of human joints in each video frame and
human dynamics across frames with cascaded transformer layers and has achieved
impressive performance. However, in real scenarios, the performance of
PoseFormer and its follow-ups is limited by two factors: (a) The length of the
input joint sequence; (b) The quality of 2D joint detection. Existing methods
typically apply self-attention to all frames of the input sequence, causing a
huge computational burden when the frame number is increased to obtain advanced
estimation accuracy, and they are not robust to noise naturally brought by the
limited capability of 2D joint detectors. In this paper, we propose
PoseFormerV2, which exploits a compact representation of lengthy skeleton
sequences in the frequency domain to efficiently scale up the receptive field
and boost robustness to noisy 2D joint detection. With minimum modifications to
PoseFormer, the proposed method effectively fuses features both in the time
domain and frequency domain, enjoying a better speed-accuracy trade-off than
its precursor. Extensive experiments on two benchmark datasets (i.e., Human3.6M
and MPI-INF-3DHP) demonstrate that the proposed approach significantly
outperforms the original PoseFormer and other transformer-based variants. Code
is released at \url{https://github.com/QitaoZhao/PoseFormerV2}.
- Abstract(参考訳): 近年,変圧器を用いた2次元から3次元の昇降姿勢推定手法が成功している。
先駆的な研究として、ポーズフォーマーは、各ビデオフレームにおける人間の関節の空間的関係と、カスケードトランスフォーマー層を持つフレーム間の人間のダイナミクスを捉え、印象的なパフォーマンスを達成している。
しかし、実際のシナリオでは、poseformerとそのフォローアップのパフォーマンスは2つの要因によって制限される。
(a)入力ジョイントシーケンスの長さ
(b)2次元関節検出の品質。
既存の手法では、入力シーケンスの全てのフレームに自己アテンションを適用し、フレーム数を増加させて推定精度が向上したときの計算負荷を増大させ、2次元のジョイント検出器の能力の制限によって自然に生じる雑音に対して頑健ではない。
本稿では,周波数領域における長大な骨格配列のコンパクトな表現を活用し,受容野を効率的にスケールアップし,雑音2次元関節検出に対するロバスト性を高めるposeformerv2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
2つのベンチマークデータセット(human3.6mとmpi-inf-3dhp)に関する広範囲な実験により、提案手法がオリジナルのポーズフォーマーや他のトランスフォーマティブベースの変種を大きく上回っていることが示されている。
コードは \url{https://github.com/QitaoZhao/PoseFormerV2} でリリースされる。
関連論文リスト
- Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - JUMPS: Joints Upsampling Method for Pose Sequences [0.0]
我々は,GAN(Generative Adversarial Network)とエンコーダを組み合わせた深層生成モデルを構築した。
実験により, 付加関節の局所化精度は, 原位置推定値と平均的に一致していることがわかった。
論文 参考訳(メタデータ) (2020-07-02T14:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。