論文の概要: MSF-Mamba: Motion-aware State Fusion Mamba for Efficient Micro-Gesture Recognition
- arxiv url: http://arxiv.org/abs/2510.10478v1
- Date: Sun, 12 Oct 2025 07:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.965907
- Title: MSF-Mamba: Motion-aware State Fusion Mamba for Efficient Micro-Gesture Recognition
- Title(参考訳): MSF-Mamba:高能率マイクロジェスチャ認識のための運動認識状態融合Mamba
- Authors: Deng Li, Jun Shao, Bohao Xing, Rong Gao, Bihan Wen, Heikki Kälviäinen, Xin Liu,
- Abstract要約: マイクロチャ認識のための運動認識状態融合リニアマンバ(MSF-Mamba)を提案する。
MSF-Mambaは、文脈的局所的状態による局所的時間的モデリングにより、Mambaを強化する。
我々の設計では、中央フレーム差分(CFD)に基づく動き認識型状態融合モジュールを導入している。
具体的には、MSF-Mambaはマルチスケールの運動認識状態融合と適応的なスケール重み付けモジュールをサポートする。
- 参考スコア(独自算出の注目度): 42.21383693511854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-gesture recognition (MGR) targets the identification of subtle and fine-grained human motions and requires accurate modeling of both long-range and local spatiotemporal dependencies. While CNNs are effective at capturing local patterns, they struggle with long-range dependencies due to their limited receptive fields. Transformer-based models address this limitation through self-attention mechanisms but suffer from high computational costs. Recently, Mamba has shown promise as an efficient model, leveraging state space models (SSMs) to enable linear-time processing However, directly applying the vanilla Mamba to MGR may not be optimal. This is because Mamba processes inputs as 1D sequences, with state updates relying solely on the previous state, and thus lacks the ability to model local spatiotemporal dependencies. In addition, previous methods lack a design of motion-awareness, which is crucial in MGR. To overcome these limitations, we propose motion-aware state fusion mamba (MSF-Mamba), which enhances Mamba with local spatiotemporal modeling by fusing local contextual neighboring states. Our design introduces a motion-aware state fusion module based on central frame difference (CFD). Furthermore, a multiscale version named MSF-Mamba+ has been proposed. Specifically, MSF-Mamba supports multiscale motion-aware state fusion, as well as an adaptive scale weighting module that dynamically weighs the fused states across different scales. These enhancements explicitly address the limitations of vanilla Mamba by enabling motion-aware local spatiotemporal modeling, allowing MSF-Mamba and MSF-Mamba to effectively capture subtle motion cues for MGR. Experiments on two public MGR datasets demonstrate that even the lightweight version, namely, MSF-Mamba, achieves SoTA performance, outperforming existing CNN-, Transformer-, and SSM-based models while maintaining high efficiency.
- Abstract(参考訳): Micro-gesture Recognition (MGR) は微妙できめ細かな人間の動きの同定を目標とし、長距離と局所の時間的依存関係の正確なモデリングを必要とする。
CNNは局所的なパターンを捉えるのに効果的であるが、受容野が限られているため、長距離依存に苦しむ。
トランスフォーマーベースのモデルは、自己認識機構を通じてこの制限に対処するが、高い計算コストに悩まされる。
近年、Mambaは線形時間処理を実現するために状態空間モデル(SSM)を活用する効率的なモデルとして期待されているが、バニラのMambaをMGRに直接適用することは最適ではないかもしれない。
これは、Mambaプロセスが入力を1Dシーケンスとして処理し、状態更新は以前の状態のみに依存するため、局所的な時空間依存をモデル化する能力が欠如しているためである。
加えて、従来の手法では運動認識設計が欠如しており、これはMGRにとって極めて重要である。
これらの制約を克服するために, 局所的時空間モデリングにより, 局所的文脈近傍の状態を融合させることで, マンバを局所的時空間モデルにより拡張する運動認識状態融合マンバ(MSF-Mamba)を提案する。
本設計では,中央フレーム差分(CFD)に基づく動作認識型状態融合モジュールを提案する。
さらに、MSF-Mamba+と呼ばれるマルチスケールバージョンが提案されている。
具体的には、MSF-Mambaはマルチスケールの運動認識状態融合をサポートし、異なるスケールにわたる融合状態を動的に重み付けする適応スケール重み付けモジュールをサポートする。
これらの拡張は、動きを意識した局所時空間モデリングを可能にし、MSF-MambaとMSF-MambaがMGRの微妙な動きの手がかりを効果的に捉えられるようにすることで、バニラ・マンバの限界に明示的に対処する。
2つの公開MGRデータセットの実験では、軽量バージョンであるMSF-Mambaでさえ、高い効率を維持しながら既存のCNN-、Transformer-、SSMベースのモデルを上回るパフォーマンスでSoTAのパフォーマンスを実現している。
関連論文リスト
- Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model [15.551773379039675]
ステート・スペース・モデル(SSM)は歴史的にシーケンシャル・モデリングにおいて中心的な役割を果たしてきた。
Mambaのような選択型SSMの最近の進歩は、魅力的な代替手段を提供する。
本研究では,空間的コンテキストアグリゲーションのためのシフトウィンドウ自己アテンションと,効率的な時間的伝搬のためのマンバ型選択走査を組み合わせたハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-01T13:11:13Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - MambaMoE: Mixture-of-Spectral-Spatial-Experts State Space Model for Hyperspectral Image Classification [46.67137351665963]
マンバをベースとしたモデルは、最近ハイパースペクトル画像(HSI)分類において有意な可能性を証明している。
我々は,HSI分類領域における最初のMoEに基づくアプローチである,スペクトル空間混合(MoE)フレームワークであるMambaMoEを提案する。
MambaMoEは、既存の高度な手法と比較して、分類精度と計算効率の両面で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-04-29T07:50:36Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。