論文の概要: Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2412.19676v1
- Date: Fri, 27 Dec 2024 14:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:03.510796
- Title: Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation
- Title(参考訳): 高精度な3次元人物位置推定のための局所的・局所的依存性の最適化
- Authors: Guangsheng Xu, Guoyi Zhang, Lejia Ye, Shuwei Gan, Xiaohu Zhang, Xia Yang,
- Abstract要約: SSR-STFは,局所的な特徴をグローバルな依存関係と統合し,人間の3次元ポーズ推定を強化する2重ストリームモデルである。
具体的には,SSRFormerについて紹介する。SSRFormerは,スケルトン選択的精細注意(SSRA)機構を用いて,局所的なきめ細かい依存関係を捕捉するシンプルなモジュールである。
Human3.6M と MPI-INF-3DHP のデータセットの実験では、SSR-STF がそれぞれ37.4 mm と 13.2 mm の誤差で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 2.1330933342577096
- License:
- Abstract: Transformer-based methods have recently achieved significant success in 3D human pose estimation, owing to their strong ability to model long-range dependencies. However, relying solely on the global attention mechanism is insufficient for capturing the fine-grained local details, which are crucial for accurate pose estimation. To address this, we propose SSR-STF, a dual-stream model that effectively integrates local features with global dependencies to enhance 3D human pose estimation. Specifically, we introduce SSRFormer, a simple yet effective module that employs the skeleton selective refine attention (SSRA) mechanism to capture fine-grained local dependencies in human pose sequences, complementing the global dependencies modeled by the Transformer. By adaptively fusing these two feature streams, SSR-STF can better learn the underlying structure of human poses, overcoming the limitations of traditional methods in local feature extraction. Extensive experiments on the Human3.6M and MPI-INF-3DHP datasets demonstrate that SSR-STF achieves state-of-the-art performance, with P1 errors of 37.4 mm and 13.2 mm respectively, outperforming existing methods in both accuracy and generalization. Furthermore, the motion representations learned by our model prove effective in downstream tasks such as human mesh recovery. Codes are available at https://github.com/poker-xu/SSR-STF.
- Abstract(参考訳): トランスフォーマーベースの手法は、長距離依存をモデル化する能力の強いため、近年3次元人間のポーズ推定において大きな成功を収めている。
しかし,グローバルアテンションのメカニズムにのみ依存することは,精密なポーズ推定に欠かせない局部的細部を捉えるには不十分である。
そこで本研究では,局所的特徴とグローバルな依存関係を効果的に統合し,人間の3次元ポーズ推定を強化する2重ストリームモデルであるSSR-STFを提案する。
具体的には,SSRFormerを紹介した。SSRFormerはスケルトン選択的精細な注意(SSRA)機構を利用して,人間のポーズシーケンスのきめ細かい局所的な依存関係をキャプチャし,Transformerによってモデル化されたグローバルな依存関係を補完する。
これら2つの特徴ストリームを適応的に融合させることで、SSR-STFは、局所的特徴抽出における従来の手法の限界を克服し、人間のポーズの基盤構造をよりよく学習することができる。
Human3.6M と MPI-INF-3DHP のデータセットの大規模な実験により、SSR-STF は、それぞれ37.4 mm と 13.2 mm の誤差で最先端のパフォーマンスを達成し、精度と一般化の両方において既存の手法より優れていることが示された。
さらに,本モデルで学習した動作表現は,人間のメッシュ回復などの下流作業に有効であることを示す。
コードはhttps://github.com/poker-xu/SSR-STF.comで公開されている。
関連論文リスト
- RopeTP: Global Human Motion Recovery via Integrating Robust Pose Estimation with Diffusion Trajectory Prior [10.093695199050071]
RopeTPは,ロバストポーズ推定と拡散軌道を組み合わせた新しいフレームワークである。
RopeTPは2つのベンチマークデータセットの現在のメソッドを上回っている。
論文 参考訳(メタデータ) (2024-10-27T07:19:39Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - Global Adaptation meets Local Generalization: Unsupervised Domain
Adaptation for 3D Human Pose Estimation [31.178656420040692]
textitPoseDAは、MPI-INF-3DHP上で61.3mmのMPJPEを達成する。
論文 参考訳(メタデータ) (2023-03-29T04:54:42Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Pose-Oriented Transformer with Uncertainty-Guided Refinement for
2D-to-3D Human Pose Estimation [51.00725889172323]
本研究では,3次元ポーズ推定のための不確実性ガイド付き多目的変換器(POT)を提案する。
我々はまず,人骨のトポロジーを明示的に活用するために,新しいポーズ指向の自己注意機構と距離関連位置埋め込みを開発した。
本稿では,特に難解な関節に対するPOTからのポーズ予測を洗練させるために,不確実性誘導型リファインメントネットワーク(UGRN)を提案する。
論文 参考訳(メタデータ) (2023-02-15T00:22:02Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。