論文の概要: MV-GMN: State Space Model for Multi-View Action Recognition
- arxiv url: http://arxiv.org/abs/2501.13829v1
- Date: Thu, 23 Jan 2025 16:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:02.818909
- Title: MV-GMN: State Space Model for Multi-View Action Recognition
- Title(参考訳): MV-GMN:多視点行動認識のための状態空間モデル
- Authors: Yuhui Lin, Jiaxuan Lu, Yue Yong, Jiahao Zhang,
- Abstract要約: 本稿では,マルチモーダルデータを効率的に集約する状態空間モデルであるMV-GMNモデルを提案する。
MV-GMNは、一連のMV-GMNブロックからなる革新的なマルチビューグラフマンバネットワークを採用している。
NTU RGB+D 120データセットでは、クロスオブジェクトとクロスビューのシナリオで97.3%と96.7%の顕著な精度を達成した。
- 参考スコア(独自算出の注目度): 4.318590074766604
- License:
- Abstract: Recent advancements in multi-view action recognition have largely relied on Transformer-based models. While effective and adaptable, these models often require substantial computational resources, especially in scenarios with multiple views and multiple temporal sequences. Addressing this limitation, this paper introduces the MV-GMN model, a state-space model specifically designed to efficiently aggregate multi-modal data (RGB and skeleton), multi-view perspectives, and multi-temporal information for action recognition with reduced computational complexity. The MV-GMN model employs an innovative Multi-View Graph Mamba network comprising a series of MV-GMN blocks. Each block includes a proposed Bidirectional State Space Block and a GCN module. The Bidirectional State Space Block introduces four scanning strategies, including view-prioritized and time-prioritized approaches. The GCN module leverages rule-based and KNN-based methods to construct the graph network, effectively integrating features from different viewpoints and temporal instances. Demonstrating its efficacy, MV-GMN outperforms the state-of-the-arts on several datasets, achieving notable accuracies of 97.3\% and 96.7\% on the NTU RGB+D 120 dataset in cross-subject and cross-view scenarios, respectively. MV-GMN also surpasses Transformer-based baselines while requiring only linear inference complexity, underscoring the model's ability to reduce computational load and enhance the scalability and applicability of multi-view action recognition technologies.
- Abstract(参考訳): マルチビュー動作認識の最近の進歩は、Transformerベースのモデルに大きく依存している。
効果的で適応性があるにもかかわらず、これらのモデルは、特に複数のビューと複数の時間的シーケンスを持つシナリオにおいて、かなりの計算資源を必要とすることが多い。
本稿では,マルチモーダルデータ(RGBとスケルトン)を効率的に集約する状態空間モデルであるMV-GMNモデル,マルチビュー視点,複雑度を低減した動作認識のためのマルチテンポラル情報を紹介する。
MV-GMNモデルは、一連のMV-GMNブロックからなる革新的なマルチビューグラフマンバネットワークを使用している。
各ブロックには、提案された双方向ステートスペースブロックとGCNモジュールが含まれている。
Bidirectional State Space Blockには、ビュー優先とタイム優先のアプローチを含む4つのスキャン戦略が導入されている。
GCNモジュールは、ルールベースおよびKNNベースのメソッドを利用してグラフネットワークを構築し、異なる視点と時間インスタンスの機能を効果的に統合する。
MV-GMNはその有効性を実証し、いくつかのデータセットで最先端の成果を上げ、NTU RGB+D 120データセットでは、それぞれ97.3\%と96.7\%という顕著な精度を達成した。
MV-GMNはトランスフォーマーベースのベースラインを超えるが、線形推論の複雑さは必要であり、計算負荷を減らし、マルチビューアクション認識技術のスケーラビリティと適用性を向上するモデルの能力を強調している。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Meta Attentive Graph Convolutional Recurrent Network for Traffic
Forecasting [32.53813334921991]
我々は,Meta Attentive Graph Convolutional Recurrent Network (MAGCRN) という新しいトラフィック予測器を提案する。
MAGCRNは、グラフ畳み込みリカレントネットワーク(GCRN)をコアモジュールとして使用し、ローカル依存をモデル化し、2つの新しいモジュールによる操作を改善する。
6つの実世界のトラフィックデータセットの実験により、NMPLとNAWGが共に、MAGCRNが短期および長期の予測において最先端のベースラインを上回ることを実証した。
論文 参考訳(メタデータ) (2023-08-28T07:49:30Z) - Dual Information Enhanced Multi-view Attributed Graph Clustering [11.624319530337038]
本稿では,Dual Information enhanced Multi-view Attributed Graph Clustering (DIAGC)法を提案する。
提案手法では,複数の視点からのコンセンサスと特定情報の探索を阻害する特定情報再構成(SIR)モジュールを提案する。
相互情報最大化(MIM)モジュールは、潜在高レベル表現と低レベル表現との合意を最大化し、高レベル表現が所望のクラスタリング構造を満たすことを可能にする。
論文 参考訳(メタデータ) (2022-11-28T01:18:04Z) - Continuous-Time and Multi-Level Graph Representation Learning for
Origin-Destination Demand Prediction [52.0977259978343]
本稿では,原位置需要予測(CMOD)のための連続時間および多段階動的グラフ表現学習法を提案する。
状態ベクトルは、過去のトランザクション情報を保持し、最近発生したトランザクションに従って継続的に更新される。
北京地下鉄とニューヨークタクシーの2つの実世界のデータセットを用いて実験を行い、そのモデルが最先端のアプローチに対して優れていることを実証した。
論文 参考訳(メタデータ) (2022-06-30T03:37:50Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。