論文の概要: Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos
- arxiv url: http://arxiv.org/abs/2404.07645v1
- Date: Thu, 11 Apr 2024 11:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:19:15.587520
- Title: Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos
- Title(参考訳): Simba: ビデオにおける骨格行動認識のためのマンバ拡張U-ShiftGCN
- Authors: Soumyabrata Chaudhuri, Saumik Bhattacharya,
- Abstract要約: スケルトン行動認識は、骨格関節座標とその相互接続を用いた人間の行動の同定を含む。
近年、新しい選択状態空間モデルであるMambaがトランスフォーマーのアテンションメカニズムの代替として浮上している。
Mambaを組み込んだ最初のSARフレームワークを提案する。このフレームワークは3つのよく知られたベンチマークスケルトン行動認識データセットに対して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.8366697175402225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton Action Recognition (SAR) involves identifying human actions using skeletal joint coordinates and their interconnections. While plain Transformers have been attempted for this task, they still fall short compared to the current leading methods, which are rooted in Graph Convolutional Networks (GCNs) due to the absence of structural priors. Recently, a novel selective state space model, Mamba, has surfaced as a compelling alternative to the attention mechanism in Transformers, offering efficient modeling of long sequences. In this work, to the utmost extent of our awareness, we present the first SAR framework incorporating Mamba. Each fundamental block of our model adopts a novel U-ShiftGCN architecture with Mamba as its core component. The encoder segment of the U-ShiftGCN is devised to extract spatial features from the skeletal data using downsampling vanilla Shift S-GCN blocks. These spatial features then undergo intermediate temporal modeling facilitated by the Mamba block before progressing to the encoder section, which comprises vanilla upsampling Shift S-GCN blocks. Additionally, a Shift T-GCN (ShiftTCN) temporal modeling unit is employed before the exit of each fundamental block to refine temporal representations. This particular integration of downsampling spatial, intermediate temporal, upsampling spatial, and ultimate temporal subunits yields promising results for skeleton action recognition. We dub the resulting model \textbf{Simba}, which attains state-of-the-art performance across three well-known benchmark skeleton action recognition datasets: NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA. Interestingly, U-ShiftGCN (Simba without Intermediate Mamba Block) by itself is capable of performing reasonably well and surpasses our baseline.
- Abstract(参考訳): Skeleton Action Recognition (SAR) は骨格関節座標とその相互接続を用いて人間の行動を特定する。
このタスクのためにプレーントランスフォーマーが試みられているが、構造的先行性がないため、グラフ畳み込みネットワーク(GCN)に根ざしている現在のリードメソッドと比較しても、まだ不足している。
近年、新しい選択状態空間モデルであるMambaが、トランスフォーマーのアテンションメカニズムの魅力的な代替として浮上し、長いシーケンスの効率的なモデリングを提供している。
本研究では,マンバを取り入れた最初のSARフレームワークについて述べる。
モデルの基本ブロックはそれぞれ,Mambaをコアコンポーネントとする新しいU-ShiftGCNアーキテクチャを採用しています。
U-ShiftGCNのエンコーダセグメントは、ダウンサンプリングバニラシフトS-GCNブロックを用いて骨格データから空間的特徴を抽出するために考案された。
これらの空間的特徴は、バンラアップサンプリングシフトS-GCNブロックを含むエンコーダ部に進む前に、マンバブロックによって促進される中間時間的モデリングを行う。
さらに、各基本ブロックの終了前にShift T-GCN (ShiftTCN) 時間モデリングユニットを使用し、時間表現を洗練させる。
このダウンサンプリング空間、中間時間、アップサンプリング空間、究極の時間サブユニットの統合は、骨格の行動認識に有望な結果をもたらす。
我々は、NTU RGB+D、NTU RGB+D 120、Northwestern-UCLAの3つの既知のベンチマークスケルトン行動認識データセットに対して、最先端のパフォーマンスを実現する結果のモデルである「textbf{Simba}」をダブする。
興味深いことに、U-ShiftGCN(Simba without Intermediate Mamba Block)自体が合理的に動作可能であり、ベースラインを超えています。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification [27.04370747400184]
本稿では,まずハイパースペクトル画像パッチを空間スペクトルトークンに変換するトークン生成モジュールである空間スペクトル形態マンバ(MorpMamba)モデルを提案する。
これらのトークンはモルフォロジー演算によって処理され、奥行き分離可能な畳み込み演算を用いて構造情報と形状情報を計算する。
広く使われているHSIデータセットの実験では、MorpMambaモデルはCNNモデルとTransformerモデルの両方で(パラメトリック効率)優れていた。
論文 参考訳(メタデータ) (2024-08-02T16:28:51Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - RSCaMa: Remote Sensing Image Change Captioning with State Space Model [29.945966783242337]
リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:31:00Z) - STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention
Transformer for Skeleton-based Action Recognition [0.0]
グラフ畳み込み畳み込みネットワークは、どのように異なるトポロジを学習し、グローバルな時間的および局所的な時間的共同機能を効果的に集約するかに焦点を当てる。
CTR-GCN(Channel-wise Topology Refinement Graph Convolution)に基づく3つのチャネルワイズトロイグラフ畳み込みを提案する。
我々は,NTU RGB+D, NTU RGB+D 120データセット上での高性能な空間時間有効ボディアテンション変換器という,強力なグラフ畳み込みネットワークを開発した。
論文 参考訳(メタデータ) (2023-12-06T04:36:58Z) - Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action
Recognition through Redefined Skeletal Topology Awareness [24.83836008577395]
グラフ畳み込みネットワーク(GCN)は長い間、骨格に基づく行動認識の最先端を定義してきた。
彼らはモデルの重みとともに隣接行列を最適化する傾向がある。
このプロセスは、骨接続データの段階的な崩壊を引き起こし、マッピングしようとしたトポロジとは無関係なモデルで終わる。
本稿では,骨の接続性をグラフ距離のパワーを利用して符号化する革新的な経路を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:40:12Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。