論文の概要: VIMCAN: Visual-Inertial 3D Human Pose Estimation with Hybrid Mamba-Cross-Attention Network
- arxiv url: http://arxiv.org/abs/2605.07552v1
- Date: Fri, 08 May 2026 10:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.993405
- Title: VIMCAN: Visual-Inertial 3D Human Pose Estimation with Hybrid Mamba-Cross-Attention Network
- Title(参考訳): VIMCAN:ハイブリッドマンバ・クロス・アテンションネットワークを用いた視覚-慣性3次元人物位置推定
- Authors: Zepeng Yang, Junxuan Bai, Hao Li, Ju Dai, Junjun Pan, Yongfeng Yin, Bin Li,
- Abstract要約: VIMCANは、Mambaの効率的なシーケンスモデリングと、Cross-Attentionの空間的推論を組み合わせたハイブリッドアーキテクチャである。
VIMCANは、TotalCaptureでは17.2mm、3DPWでは45.3mmの平均結合位置誤差(MPJPE)よりも精度が高い。
- 参考スコア(独自算出の注目度): 15.727067180984237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advances in deep learning have significantly enhanced the accuracy of multimodal 3D human pose estimation (HPE). However, the state-of-the-art (SOTA) HPE pipelines still rely on Transformers, whose quadratic complexity makes real-time processing for long sequences impractical. Mamba addresses this issue through selective state-space modeling, enabling efficient sequence processing without sacrificing representational power. Nevertheless, it struggles to capture complex spatial dependencies in multimodal settings. To bridge this gap, we propose VIMCAN, a hybrid architecture that combines the efficient sequence modeling of Mamba with the spatial reasoning of Cross-Attention, and performs robust visual-inertial fusion and human pose estimation between RGB keypoints and wearable IMU data. By leveraging Mamba's dynamic parameterization for temporal modeling and Attention for spatial dependency extraction, VIMCAN achieves superior accuracy, with mean per-joint position errors (MPJPE) of 17.2 mm on TotalCapture and 45.3 mm on 3DPW. VIMCAN outperforms prior Transformer-based and other SOTA approaches while supporting real-time inference at over 60 frames per second on consumer-grade hardware. The source code is available on GitHub.
- Abstract(参考訳): ディープラーニングの急速な進歩により、マルチモーダルな3次元ポーズ推定(HPE)の精度が大幅に向上した。
しかし、最先端(SOTA)のHPEパイプラインはトランスフォーマーに依存しており、その二次的な複雑さは、長いシーケンスのリアルタイム処理を非現実的にする。
Mambaは選択的な状態空間モデリングによってこの問題に対処し、表現力を犠牲にすることなく効率的なシーケンス処理を可能にする。
それでも、マルチモーダル環境で複雑な空間依存を捉えるのに苦労している。
このギャップを埋めるために,マンバの効率的なシーケンスモデリングとクロスアテンションの空間的推論を組み合わせたハイブリッドアーキテクチャであるVIMCANを提案し,RGBキーポイントとウェアラブルIMUデータ間の堅牢な視覚・慣性融合と人間のポーズ推定を行う。
マンバの動的パラメータ化を時間的モデリングと空間的依存抽出に利用することにより、VIMCANは、TotalCaptureでは17.2mm、3DPWでは45.3mmの平均結合位置誤差(MPJPE)により、精度が向上する。
VIMCANは、Transformerベースの他のSOTAアプローチよりも優れており、コンシューマグレードのハードウェアで毎秒60フレーム以上のリアルタイム推論をサポートする。
ソースコードはGitHubで入手できる。
関連論文リスト
- DeMa: Dual-Path Delay-Aware Mamba for Efficient Multivariate Time Series Analysis [22.768341734517815]
トランスフォーマーベースのモデルは、計算複雑性と高いメモリオーバーヘッドに悩まされる。
マンバは高い表現力を持つ有望な線形時間代替品として登場した。
DeMaはデュアルパス遅延対応のMambaバックボーンである。
論文 参考訳(メタデータ) (2026-01-09T04:54:56Z) - TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。
MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T11:55:16Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection [4.757840725810513]
YOLOシリーズモデルは、速度と精度のバランスをとることで、強力なベンチマークを設定している。
トランスフォーマーは自己アテンション機構のため、計算の複雑さが高い。
精度と効率のバランスをとる新しいオブジェクト検出フレームワークであるMambaNeXt-YOLOを提案する。
論文 参考訳(メタデータ) (2025-06-04T07:46:24Z) - Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation [10.843503146808839]
HiSTF Mambaを3つの部分からなるフレームワークとして紹介する: Dual-tial Mamba, Bi-Temporal Mamba, Spatiotemporal Fusion Module (DSFM)。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
論文 参考訳(メタデータ) (2025-03-10T04:01:48Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。