論文の概要: Mamba-Driven Topology Fusion for Monocular 3-D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2505.20611v1
- Date: Tue, 27 May 2025 01:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.333153
- Title: Mamba-Driven Topology Fusion for Monocular 3-D Human Pose Estimation
- Title(参考訳): マンバ駆動トポロジー融合による単眼3次元人物位置推定
- Authors: Zenghao Zheng, Lianping Yang, Jinshan Pan, Hegui Zhu,
- Abstract要約: 最近、Mambaモデルは計算オーバーヘッドを大幅に減らした。
SSMのシーケンシャルデータ処理能力は、位相構造を持つ3次元ジョイントシーケンスには適していない。
我々はこれらの問題に対処するMamba-Driven Topology Fusionフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.185238802221576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods for 3-D human pose estimation face significant computational challenges due to the quadratic growth of self-attention mechanism complexity with sequence length. Recently, the Mamba model has substantially reduced computational overhead and demonstrated outstanding performance in modeling long sequences by leveraging state space model (SSM). However, the ability of SSM to process sequential data is not suitable for 3-D joint sequences with topological structures, and the causal convolution structure in Mamba also lacks insight into local joint relationships. To address these issues, we propose the Mamba-Driven Topology Fusion framework in this paper. Specifically, the proposed Bone Aware Module infers the direction and length of bone vectors in the spherical coordinate system, providing effective topological guidance for the Mamba model in processing joint sequences. Furthermore, we enhance the convolutional structure within the Mamba model by integrating forward and backward graph convolutional network, enabling it to better capture local joint dependencies. Finally, we design a Spatiotemporal Refinement Module to model both temporal and spatial relationships within the sequence. Through the incorporation of skeletal topology, our approach effectively alleviates Mamba's limitations in capturing human structural relationships. We conduct extensive experiments on the Human3.6M and MPI-INF-3DHP datasets for testing and comparison, and the results show that the proposed method greatly reduces computational cost while achieving higher accuracy. Ablation studies further demonstrate the effectiveness of each proposed module. The code and models will be released.
- Abstract(参考訳): 3次元人間のポーズ推定のためのトランスフォーマーに基づく手法は、シーケンス長を伴う自己認識機構の複雑さの二次的な成長に起因する重要な計算課題に直面している。
近年、Mambaモデルは計算オーバーヘッドを大幅に削減し、状態空間モデル(SSM)を利用して長いシーケンスをモデル化する際、優れた性能を示した。
しかし、SSMのシーケンシャルデータ処理能力は、トポロジカルな構造を持つ3次元ジョイントシーケンスには適せず、マンバの因果畳み込み構造も局所的なジョイント関係に関する洞察を欠いている。
これらの問題に対処するため,本稿では,Mamba-Driven Topology Fusionフレームワークを提案する。
具体的には, 球面座標系における骨ベクトルの方向と長さを推定し, 関節列の処理におけるマンバモデルに対する効果的なトポロジ的ガイダンスを提供する。
さらに,前向きおよび後向きのグラフ畳み込みネットワークを統合することで,Mambaモデル内の畳み込み構造を強化し,局所的な継手依存性をよりよく把握する。
最後に、シーケンス内の時間的関係と空間的関係の両方をモデル化する時空間制限モジュールを設計する。
骨格トポロジーを取り入れることで,マンバの人間構造的関係を捉える限界を効果的に緩和する。
我々は,Human3.6MとMPI-INF-3DHPのデータセットを試験・比較するために広範囲な実験を行い,提案手法は高い精度で計算コストを大幅に削減することを示した。
アブレーション研究は、各モジュールの有効性をさらに示している。
コードとモデルはリリースされる。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Hierarchical Spatio-Temporal State-Space Modeling for fMRI Analysis [1.89314691075208]
実験結果から,脳の分類と回帰作業におけるFST-Mambaモデルの有効性が示唆された。
我々の研究は、脳発見における注意のないシーケンスモデリングの可能性を明らかにしている。
論文 参考訳(メタデータ) (2024-08-23T13:58:14Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。