論文の概要: HGFreNet: Hop-hybrid GraphFomer for 3D Human Pose Estimation with Trajectory Consistency in Frequency Domain
- arxiv url: http://arxiv.org/abs/2511.01756v1
- Date: Mon, 03 Nov 2025 17:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.342914
- Title: HGFreNet: Hop-hybrid GraphFomer for 3D Human Pose Estimation with Trajectory Consistency in Frequency Domain
- Title(参考訳): HGFreNet:周波数領域における軌道整合性を考慮した3次元人物位置推定のためのホップハイブリッドグラフFomer
- Authors: Kai Zhai, Ziyan Huang, Qiang Nie, Xiang Li, Bo Ouyang,
- Abstract要約: HGFreNetは、ホップハイブリッド機能アグリゲーションと3Dトラジェクトリ一貫性を備えた新しいGraphFormerアーキテクチャである。
提案したHGFreNetは、位置精度と時間的整合性の観点から、最先端(SOTA)手法より優れている。
- 参考スコア(独自算出の注目度): 11.236084559042135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D-to-3D human pose lifting is a fundamental challenge for 3D human pose estimation in monocular video, where graph convolutional networks (GCNs) and attention mechanisms have proven to be inherently suitable for encoding the spatial-temporal correlations of skeletal joints. However, depth ambiguity and errors in 2D pose estimation lead to incoherence in the 3D trajectory. Previous studies have attempted to restrict jitters in the time domain, for instance, by constraining the differences between adjacent frames while neglecting the global spatial-temporal correlations of skeletal joint motion. To tackle this problem, we design HGFreNet, a novel GraphFormer architecture with hop-hybrid feature aggregation and 3D trajectory consistency in the frequency domain. Specifically, we propose a hop-hybrid graph attention (HGA) module and a Transformer encoder to model global joint spatial-temporal correlations. The HGA module groups all $k$-hop neighbors of a skeletal joint into a hybrid group to enlarge the receptive field and applies the attention mechanism to discover the latent correlations of these groups globally. We then exploit global temporal correlations by constraining trajectory consistency in the frequency domain. To provide 3D information for depth inference across frames and maintain coherence over time, a preliminary network is applied to estimate the 3D pose. Extensive experiments were conducted on two standard benchmark datasets: Human3.6M and MPI-INF-3DHP. The results demonstrate that the proposed HGFreNet outperforms state-of-the-art (SOTA) methods in terms of positional accuracy and temporal consistency.
- Abstract(参考訳): 2次元から3次元の人間のポーズリフトは、単眼ビデオにおける3次元人間のポーズ推定の基本的な課題であり、グラフ畳み込みネットワーク(GCN)とアテンション機構は、骨格関節の空間的時間的相関を符号化するのに本質的に適していることが証明されている。
しかし、2次元ポーズ推定における深さの曖昧さと誤差は、3次元軌道の不整合をもたらす。
これまでの研究では、例えば、骨格関節運動のグローバルな空間的時間的相関を無視しながら、隣接するフレーム間の差異を制限して、時間領域におけるジッタの制限を試みた。
この問題を解決するためにHGFreNetを設計した。HGFreNetはホップハイブリッド機能アグリゲーションと周波数領域における3次元軌道整合性を備えた新しいGraphFormerアーキテクチャである。
具体的には,大域的共同空間時間相関をモデル化するためのホップハイブリドグラフアテンション(HGA)モジュールとトランスフォーマーエンコーダを提案する。
HGA加群は、骨格関節のすべての$k$ホップ近傍をハイブリッド群にグループ化し、受容場を拡大し、これらの群が持つ潜在相関を発見するために注意機構を適用する。
次に、周波数領域における軌道の整合性を制限することにより、大域的時間相関を利用する。
フレーム間の深度推定のための3D情報を提供し、時間とともにコヒーレンスを維持するために、予備ネットワークを適用して3Dポーズを推定する。
大規模な実験は、Human3.6MとMPI-INF-3DHPの2つの標準ベンチマークデータセットで実施された。
その結果,提案したHGFreNetは,位置精度と時間的整合性の観点から,最先端(SOTA)手法よりも優れていた。
関連論文リスト
- 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,ビデオ中の3次元ポーズ推定のためのS-Temporal GraphFormerフレームワーク(STGFormer)を提案する。
まず,人体固有のグラフ分布をより効果的に活用するためのSTGアテンション機構を導入する。
次に、時間次元と空間次元を独立に並列に処理するための変調ホップワイド正規GCNを提案する。
最後に,Human3.6MおよびMPIINF-3DHPデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Learning Dynamical Human-Joint Affinity for 3D Pose Estimation in Videos [47.601288796052714]
Graph Convolution Network (GCN)は、ビデオにおける3次元人間のポーズ推定に成功している。
新しい動的グラフネットワーク(DGNet)は、ビデオから空間的・時間的関節関係を適応的に学習することにより、3次元のポーズを推定できる。
論文 参考訳(メタデータ) (2021-09-15T15:06:19Z) - A hybrid classification-regression approach for 3D hand pose estimation
using graph convolutional networks [1.0152838128195467]
目的ごとの関係制約を学習する2段階のGCNベースのフレームワークを提案する。
第1フェーズは2D/3D空間を量子化し、その局所性に基づいて関節を2D/3Dブロックに分類する。
第2段階ではGCNベースのモジュールを使用し、隣り合う適応アルゴリズムを用いて関節関係を決定する。
論文 参考訳(メタデータ) (2021-05-23T10:09:10Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。