論文の概要: HGMamba: Enhancing 3D Human Pose Estimation with a HyperGCN-Mamba Network
- arxiv url: http://arxiv.org/abs/2504.06638v1
- Date: Wed, 09 Apr 2025 07:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:24.245160
- Title: HGMamba: Enhancing 3D Human Pose Estimation with a HyperGCN-Mamba Network
- Title(参考訳): HGMamba: HyperGCN-Mamba Networkによる3次元人物位置推定の強化
- Authors: Hu Cui, Tessai Hayama,
- Abstract要約: 3D人間のポーズは、推定と地道な2D人間のポーズデータをトレーニングに活用する有望な研究分野である。
既存のアプローチは、推定された2Dポーズの性能を高めることを目的としているが、地上の2Dポーズデータに適用した場合に苦労する。
本稿では2つの並列ストリームを介して入力データを処理するHyper-GCNとShuffle Mambaブロックを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: 3D human pose lifting is a promising research area that leverages estimated and ground-truth 2D human pose data for training. While existing approaches primarily aim to enhance the performance of estimated 2D poses, they often struggle when applied to ground-truth 2D pose data. We observe that achieving accurate 3D pose reconstruction from ground-truth 2D poses requires precise modeling of local pose structures, alongside the ability to extract robust global spatio-temporal features. To address these challenges, we propose a novel Hyper-GCN and Shuffle Mamba (HGMamba) block, which processes input data through two parallel streams: Hyper-GCN and Shuffle-Mamba. The Hyper-GCN stream models the human body structure as hypergraphs with varying levels of granularity to effectively capture local joint dependencies. Meanwhile, the Shuffle Mamba stream leverages a state space model to perform spatio-temporal scanning across all joints, enabling the establishment of global dependencies. By adaptively fusing these two representations, HGMamba achieves strong global feature modeling while excelling at local structure modeling. We stack multiple HGMamba blocks to create three variants of our model, allowing users to select the most suitable configuration based on the desired speed-accuracy trade-off. Extensive evaluations on the Human3.6M and MPI-INF-3DHP benchmark datasets demonstrate the effectiveness of our approach. HGMamba-B achieves state-of-the-art results, with P1 errors of 38.65 mm and 14.33 mm on the respective datasets. Code and models are available: https://github.com/HuCui2022/HGMamba
- Abstract(参考訳): 3D人間のポーズリフトは、推定と地道な2D人間のポーズデータをトレーニングに活用する有望な研究分野である。
既存のアプローチは主に推定された2Dポーズのパフォーマンスを向上させることを目的としているが、地上の2Dポーズデータに適用した場合、しばしば苦労する。
地上2次元ポーズから正確な3次元ポーズ復元を実現するには,局所的なポーズ構造を正確にモデル化する必要がある。
これらの課題に対処するために,Hyper-GCN と Shuffle-Mamba (HGMamba) ブロックを提案する。
Hyper-GCNストリームは、人体構造を様々なレベルの粒度を持つハイパーグラフとしてモデル化し、局所的な関節依存を効果的に捉える。
一方、Shuffle Mambaストリームは状態空間モデルを利用して全関節を時空間走査し、グローバルな依存関係の確立を可能にする。
これら2つの表現を適応的に融合させることで、HGMambaは局所構造モデリングに長けながら、強力なグローバルな特徴モデリングを実現する。
複数のHGMambaブロックを積み重ねてモデルの3つの変種を作成し、ユーザーは所望の速度精度トレードオフに基づいて最適な構成を選択できる。
Human3.6M と MPI-INF-3DHP ベンチマークデータセットの大規模な評価により,本手法の有効性が示された。
HGMamba-Bは、各データセット上で38.65mmと14.33mmのP1エラーで最先端の結果を得る。
コードとモデルが利用可能である。 https://github.com/HuCui2022/HGMamba
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network [40.123744788977525]
我々は,Hybrid Mamba-GCN(Pose Magic)という,注目のない新しいハイブリッドアーキテクチャを提案する。
MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。
実験によると、Pose Magicは74.1%のFLOPを節約しながら新しいSOTA結果を達成する。
論文 参考訳(メタデータ) (2024-08-06T03:15:18Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文 参考訳(メタデータ) (2023-03-30T15:45:51Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。