論文の概要: SasMamba: A Lightweight Structure-Aware Stride State Space Model for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2511.08872v1
- Date: Thu, 13 Nov 2025 01:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.271289
- Title: SasMamba: A Lightweight Structure-Aware Stride State Space Model for 3D Human Pose Estimation
- Title(参考訳): SasMamba:3次元人物位置推定のための軽量構造対応ストライド状態空間モデル
- Authors: Hu Cui, Wenqiang Hua, Renjing Huang, Shurui Jia, Tessai Hayama,
- Abstract要約: 関節間の局所的相互作用を動的に捉えるための構造認識型時間的畳み込みを提案する。
そこで我々は,マルチスケールなグローバルな構造表現を構築するために,ストライドに基づくスキャン戦略を適用した。
我々のモデルであるSasMambaは、既存のハイブリッドモデルと比較して、パラメータが大幅に少ない競争力のある3Dポーズ推定性能を実現する。
- 参考スコア(独自算出の注目度): 0.8427427828815586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Mamba architecture based on State Space Models (SSMs) has gained attention in 3D human pose estimation due to its linear complexity and strong global modeling capability. However, existing SSM-based methods typically apply manually designed scan operations to flatten detected 2D pose sequences into purely temporal sequences, either locally or globally. This approach disrupts the inherent spatial structure of human poses and entangles spatial and temporal features, making it difficult to capture complex pose dependencies. To address these limitations, we propose the Skeleton Structure-Aware Stride SSM (SAS-SSM), which first employs a structure-aware spatiotemporal convolution to dynamically capture essential local interactions between joints, and then applies a stride-based scan strategy to construct multi-scale global structural representations. This enables flexible modeling of both local and global pose information while maintaining linear computational complexity. Built upon SAS-SSM, our model SasMamba achieves competitive 3D pose estimation performance with significantly fewer parameters compared to existing hybrid models. The source code is available at https://hucui2022.github.io/sasmamba_proj/.
- Abstract(参考訳): 近年、状態空間モデル(SSM)に基づくMambaアーキテクチャは、線形複雑性と強力なグローバルモデリング能力により、3次元人間のポーズ推定において注目を集めている。
しかし、既存のSSMベースの手法は、通常、手動で設計されたスキャン操作を適用して、検出された2Dポーズシーケンスを、ローカルまたはグローバルに、純粋に時間的シーケンスに平らにする。
このアプローチは、人間のポーズの本質的な空間構造を破壊し、空間的および時間的特徴を絡み合わせることで、複雑なポーズ依存を捉えるのが困難になる。
これらの制約に対処するために,まず構造対応の時空間畳み込みを用いたSkeleton Structure-Aware Stride SSM (SAS-SSM)を提案する。
これにより、線形計算複雑性を維持しながら、局所的およびグローバルなポーズ情報の柔軟なモデリングが可能になる。
SAS-SSMをベースとしたモデルSasMambaは,既存のハイブリッドモデルと比較して,パラメータが少なく,競争力のある3次元ポーズ推定性能を実現する。
ソースコードはhttps://hucui2022.github.io/sasmamba_proj/で公開されている。
関連論文リスト
- Mamba-Driven Topology Fusion for Monocular 3D Human Pose Estimation [41.14182025718559]
本研究では,マンバ駆動トポロジフュージョンによる3次元ポーズ推定手法を提案する。
具体的には,提案した骨認識モジュールは球面座標系における骨ベクトルの方向と長さを推定する。
また、シーケンス内の時間的関係と空間的関係の両方をモデル化する時空間リファインメントモジュールを設計する。
論文 参考訳(メタデータ) (2025-05-27T01:21:57Z) - HGMamba: Enhancing 3D Human Pose Estimation with a HyperGCN-Mamba Network [0.0]
3D人間のポーズは、推定と地道な2D人間のポーズデータをトレーニングに活用する有望な研究分野である。
既存のアプローチは、推定された2Dポーズの性能を高めることを目的としているが、地上の2Dポーズデータに適用した場合に苦労する。
本稿では2つの並列ストリームを介して入力データを処理するHyper-GCNとShuffle Mambaブロックを提案する。
論文 参考訳(メタデータ) (2025-04-09T07:28:19Z) - UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [53.785766442201094]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文 参考訳(メタデータ) (2025-03-15T06:22:31Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。