論文の概要: Learning Pyramid-structured Long-range Dependencies for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2506.02853v1
- Date: Tue, 03 Jun 2025 13:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.696577
- Title: Learning Pyramid-structured Long-range Dependencies for 3D Human Pose Estimation
- Title(参考訳): 3次元人物位置推定のためのピラミッド構造長範囲依存性の学習
- Authors: Mingjie Wei, Xuemei Xie, Yutong Zhong, Guangming Shi,
- Abstract要約: 人間の構造における行動調整は、2次元関節の空間的制約が3次元ポーズを回復するのに不可欠である。
長距離の相互依存関係をキャプチャする新しいピラミッドグラフアテンション(PGA)モジュールを提案する。
また、軽量なマルチスケールトランスアーキテクチャである3次元ポーズ推定のためのピラミドグラフ変換器(PGFormer)を開発した。
- 参考スコア(独自算出の注目度): 28.929345360469807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action coordination in human structure is indispensable for the spatial constraints of 2D joints to recover 3D pose. Usually, action coordination is represented as a long-range dependence among body parts. However, there are two main challenges in modeling long-range dependencies. First, joints should not only be constrained by other individual joints but also be modulated by the body parts. Second, existing methods make networks deeper to learn dependencies between non-linked parts. They introduce uncorrelated noise and increase the model size. In this paper, we utilize a pyramid structure to better learn potential long-range dependencies. It can capture the correlation across joints and groups, which complements the context of the human sub-structure. In an effective cross-scale way, it captures the pyramid-structured long-range dependence. Specifically, we propose a novel Pyramid Graph Attention (PGA) module to capture long-range cross-scale dependencies. It concatenates information from various scales into a compact sequence, and then computes the correlation between scales in parallel. Combining PGA with graph convolution modules, we develop a Pyramid Graph Transformer (PGFormer) for 3D human pose estimation, which is a lightweight multi-scale transformer architecture. It encapsulates human sub-structures into self-attention by pooling. Extensive experiments show that our approach achieves lower error and smaller model size than state-of-the-art methods on Human3.6M and MPI-INF-3DHP datasets. The code is available at https://github.com/MingjieWe/PGFormer.
- Abstract(参考訳): 人間の構造における行動調整は、2次元関節の空間的制約が3次元ポーズを回復するのに不可欠である。
通常、動作調整は身体部分間の長距離依存として表現される。
しかし、長距離依存関係のモデリングには2つの大きな課題がある。
第一に、関節は他の個々の関節によって拘束されるだけでなく、身体部分によって調節される。
第二に、既存の手法はネットワークをより深く、非リンク部分間の依存関係を学習させる。
非相関ノイズを導入し、モデルサイズを増大させる。
本稿では,ピラミッド構造を利用して,潜在的な長距離依存関係をよりよく学習する。
関節とグループ間の相関を捉えることができ、それは人間のサブ構造のコンテキストを補完する。
効果的なクロススケールな方法では、ピラミッド構造を持つ長距離依存を捕捉する。
具体的には、長距離のクロススケール依存関係をキャプチャする新しいピラミッドグラフアテンション(PGA)モジュールを提案する。
様々なスケールからの情報をコンパクトなシーケンスに結合し、並列にスケール間の相関を計算する。
PGAとグラフ畳み込みモジュールを組み合わせることで、軽量なマルチスケールトランスフォーマーアーキテクチャである3次元ポーズ推定のためのピラミッドグラフ変換器(PGFormer)を開発した。
ヒトのサブ構造をプールすることで自己注意にカプセル化する。
提案手法は,Human3.6MとMPI-INF-3DHPデータセットの最先端手法よりも誤差が小さく,モデルサイズが小さいことを示す。
コードはhttps://github.com/MingjieWe/PGFormer.comで入手できる。
関連論文リスト
- Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Regular Splitting Graph Network for 3D Human Pose Estimation [5.177947445379688]
2次元から3次元の人間のポーズ推定のための高次正規分割グラフネットワーク(RS-Net)を提案する。
近年の3次元ポーズ推定における最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-09T22:13:04Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - A hybrid classification-regression approach for 3D hand pose estimation
using graph convolutional networks [1.0152838128195467]
目的ごとの関係制約を学習する2段階のGCNベースのフレームワークを提案する。
第1フェーズは2D/3D空間を量子化し、その局所性に基づいて関節を2D/3Dブロックに分類する。
第2段階ではGCNベースのモジュールを使用し、隣り合う適応アルゴリズムを用いて関節関係を決定する。
論文 参考訳(メタデータ) (2021-05-23T10:09:10Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。