論文の概要: Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network
- arxiv url: http://arxiv.org/abs/2408.02922v2
- Date: Wed, 7 Aug 2024 06:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:15:09.188991
- Title: Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network
- Title(参考訳): 擬似魔法:ハイブリッドマンバGCNネットワークを用いた効率的で時間的に一貫性のある人間の擬似感情推定
- Authors: Xinyi Zhang, Qiqi Bao, Qinpeng Cui, Wenming Yang, Qingmin Liao,
- Abstract要約: 我々は,Hybrid Mamba-GCN(Pose Magic)という,注目のない新しいハイブリッドアーキテクチャを提案する。
MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。
実験によると、Pose Magicは74.1%のFLOPを節約しながら新しいSOTA結果を達成する。
- 参考スコア(独自算出の注目度): 40.123744788977525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art (SOTA) methods in 3D Human Pose Estimation (HPE) are primarily based on Transformers. However, existing Transformer-based 3D HPE backbones often encounter a trade-off between accuracy and computational efficiency. To resolve the above dilemma, in this work, we leverage recent advances in state space models and utilize Mamba for high-quality and efficient long-range modeling. Nonetheless, Mamba still faces challenges in precisely exploiting local dependencies between joints. To address these issues, we propose a new attention-free hybrid spatiotemporal architecture named Hybrid Mamba-GCN (Pose Magic). This architecture introduces local enhancement with GCN by capturing relationships between neighboring joints, thus producing new representations to complement Mamba's outputs. By adaptively fusing representations from Mamba and GCN, Pose Magic demonstrates superior capability in learning the underlying 3D structure. To meet the requirements of real-time inference, we also provide a fully causal version. Extensive experiments show that Pose Magic achieves new SOTA results ($\downarrow 0.9 mm$) while saving $74.1\%$ FLOPs. In addition, Pose Magic exhibits optimal motion consistency and the ability to generalize to unseen sequence lengths.
- Abstract(参考訳): HPE(3D Human Pose Estimation)におけるSOTA(State-of-the-art)法は主にトランスフォーマーに基づいている。
しかし、既存のTransformerベースの3D HPEバックボーンは、精度と計算効率のトレードオフに遭遇することが多い。
上記のジレンマを解決するため、本稿では状態空間モデルの最近の進歩を活用し、Mambaを高品質で効率的な長距離モデリングに活用する。
それでもMambaは,関節間のローカル依存関係を正確に活用する上で,依然として課題に直面している。
これらの課題に対処するために,Hybrid Mamba-GCN (Pose Magic) という,注目のない新しいハイブリッド時空間アーキテクチャを提案する。
このアーキテクチャは、隣接する関節間の関係を捉えることによってGCNによる局所的な拡張を導入し、Mambaの出力を補完する新しい表現を生成する。
MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。
リアルタイム推論の要件を満たすため、完全な因果バージョンも提供します。
大規模な実験によると、Pose Magicは新たなSOTA結果(\downarrow 0.9 mm$)を達成し、74.1\%のFLOPを節約している。
さらに、Pose Magicは最適な動きの一貫性と、目に見えないシーケンス長に一般化する能力を示す。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:05:08Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba [48.45301469664908]
1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。
既存のSOTA法では、3Dハンドポーズと形状を学ぶためにアテンションベースのトランスフォーマーを採用している。
本稿では,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:04:58Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos [3.8366697175402225]
スケルトン行動認識は、骨格関節座標とその相互接続を用いた人間の行動の同定を含む。
近年、新しい選択状態空間モデルであるMambaがトランスフォーマーのアテンションメカニズムの代替として浮上している。
Mambaを組み込んだ最初のSARフレームワークを提案する。このフレームワークは3つのよく知られたベンチマークスケルトン行動認識データセットに対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-11T11:07:57Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation [16.476244833079182]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。