論文の概要: Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos
- arxiv url: http://arxiv.org/abs/2308.05298v1
- Date: Thu, 10 Aug 2023 02:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:58:17.759404
- Title: Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos
- Title(参考訳): 画像と映像における3次元ポーズ推定のための二重鎖制約
- Authors: Hongbo Kang, Yong Wang, Mengyuan Liu, Doudou Wu, Peng Liu, Wenming
Yang
- Abstract要約: 深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 21.42410292863492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D poses from 2D poses lacking depth information is
particularly challenging due to the complexity and diversity of human motion.
The key is to effectively model the spatial constraints between joints to
leverage their inherent dependencies. Thus, we propose a novel model, called
Double-chain Graph Convolutional Transformer (DC-GCT), to constrain the pose
through a double-chain design consisting of local-to-global and global-to-local
chains to obtain a complex representation more suitable for the current human
pose. Specifically, we combine the advantages of GCN and Transformer and design
a Local Constraint Module (LCM) based on GCN and a Global Constraint Module
(GCM) based on self-attention mechanism as well as a Feature Interaction Module
(FIM). The proposed method fully captures the multi-level dependencies between
human body joints to optimize the modeling capability of the model. Moreover,
we propose a method to use temporal information into the single-frame model by
guiding the video sequence embedding through the joint embedding of the target
frame, with negligible increase in computational cost. Experimental results
demonstrate that DC-GCT achieves state-of-the-art performance on two
challenging datasets (Human3.6M and MPI-INF-3DHP). Notably, our model achieves
state-of-the-art performance on all action categories in the Human3.6M dataset
using detected 2D poses from CPN, and our code is available at:
https://github.com/KHB1698/DC-GCT.
- Abstract(参考訳): 深度情報に欠ける2dポーズからの3dポーズの再構築は、人間の動きの複雑さと多様性のために特に困難である。
鍵となるのは、ジョイント間の空間的制約を効果的にモデル化し、固有の依存関係を活用することだ。
そこで本稿では,Double-chain Graph Convolutional Transformer (DC-GCT) と呼ばれる新しいモデルを提案する。
具体的には,GCN と Transformer の利点を組み合わせて,GCN に基づく局所制約モジュール (LCM) と自己保持機構に基づくグローバル制約モジュール (GCM) と,特徴相互作用モジュール (FIM) を設計する。
提案手法は,人体関節間の多レベル依存性を完全に把握し,モデルのモデリング能力を最適化する。
さらに,対象フレームのジョイント埋め込みを通じて映像列埋め込みを誘導し,計算コストを無視できるようにすることで,単一フレームモデルに時間情報を利用する手法を提案する。
実験の結果、DC-GCTは2つの挑戦的データセット(Human3.6MとMPI-INF-3DHP)で最先端の性能を達成することが示された。
特に,本モデルはCPNから検出された2Dポーズを用いて,Human3.6Mデータセットのすべてのアクションカテゴリの最先端性能を達成し, https://github.com/KHB1698/DC-GCTで利用可能である。
関連論文リスト
- PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Jointformer: Single-Frame Lifting Transformer with Error Prediction and
Refinement for 3D Human Pose Estimation [11.592567773739407]
人間の3次元ポーズ推定技術は、人間の動きデータの可用性を大幅に向上させる可能性がある。
シングルイメージ2D-3Dリフトの最高の性能モデルは、通常、異なる体節間の関係を定義するために手動入力を必要とするグラフ畳み込みネットワーク(GCN)を使用する。
より一般化された自己認識機構を用いてこれらの関係を学習するトランスフォーマーに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T12:07:19Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。