論文の概要: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2404.10210v2
- Date: Sat, 3 Aug 2024 05:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 22:54:48.528341
- Title: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- Title(参考訳): MK-SGN:スケルトンに基づく行動認識のためのマルチモーダル融合と知識蒸留を用いたスパイキンググラフ畳み込みネットワーク
- Authors: Naichuan Zheng, Hailun Xia, Zeyu Liang, Yuanyuan Chai,
- Abstract要約: 本稿では,MK-SGN(Multimodal Fusion and Knowledge Distillation)を用いたスポーキンググラフ畳み込みネットワークを提案する。
提案手法は、スパイキングニューラルネットワーク(SNN)のエネルギー効率とGCNのグラフ表現能力とを融合することにより、認識精度を維持しながらエネルギー消費量を削減する。
- 参考スコア(独自算出の注目度): 0.6442618560991484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, skeleton-based action recognition, leveraging multimodal Graph Convolutional Networks (GCN), has achieved remarkable results. However, due to their deep structure and reliance on continuous floating-point operations, GCN-based methods are energy-intensive. We propose an innovative Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation (MK-SGN) to address this issue. By merging the energy efficiency of Spiking Neural Network (SNN) with the graph representation capability of GCN, the proposed MK-SGN reduces energy consumption while maintaining recognition accuracy. Firstly, we convert Graph Convolutional Networks (GCN) into Spiking Graph Convolutional Networks (SGN) establishing a new benchmark and paving the way for future research exploration. During this process, we introduce a spiking attention mechanism and design a Spiking-Spatio Graph Convolution module with a Spatial Global Spiking Attention mechanism (SA-SGC), enhancing feature learning capability. Secondly, we propose a Spiking Multimodal Fusion module (SMF), leveraging mutual information to process multimodal data more efficiently. Lastly, we delve into knowledge distillation methods from multimodal GCN to SGN and propose a novel, integrated method that simultaneously focuses on both intermediate layer distillation and soft label distillation to improve the performance of SGN. MK-SGN outperforms the state-of-the-art GCN-like frameworks on three challenging datasets for skeleton-based action recognition in reducing energy consumption. It also outperforms the state-of-the-art SNN frameworks in accuracy. Specifically, our method reduces energy consumption by more than 98% compared to typical GCN-based methods, while maintaining competitive accuracy on the NTU-RGB+D 60 cross-subject split using 4-time steps.
- Abstract(参考訳): 近年,マルチモーダルグラフ畳み込みネットワーク(GCN)を利用した骨格に基づく行動認識が,目覚ましい成果を上げている。
しかし、その深い構造と連続的な浮動小数点演算に依存するため、GCNベースの手法はエネルギー集約的である。
本稿では,MK-SGN(Multimodal Fusion and Knowledge Distillation)を用いたスポーキンググラフ畳み込みネットワークを提案する。
提案手法は、スパイキングニューラルネットワーク(SNN)のエネルギー効率とGCNのグラフ表現能力とを融合することにより、認識精度を維持しながらエネルギー消費量を削減する。
まず、グラフ畳み込みネットワーク(GCN)をスパイキンググラフ畳み込みネットワーク(SGN)に変換し、新しいベンチマークを確立し、将来の研究への道を開く。
本研究では,空間的グローバルスパイキング・アテンション機構 (SA-SGC) を備えたスパイキング・スポーティシャグラフ・コンボリューション・モジュールの設計を行い,特徴学習能力の向上を図る。
第2に,マルチモーダルデータの処理をより効率的に行うために相互情報を活用するスパイキング・マルチモーダル・フュージョン・モジュール(SMF)を提案する。
最後に, マルチモーダルGCNからSGNへの知識蒸留手法を探求し, 中間層蒸留と軟質ラベル蒸留の両方に同時に焦点を合わせ, SGNの性能を向上させる新しい統合手法を提案する。
MK-SGNは、エネルギー消費を減らすために骨格に基づく行動認識のための3つの挑戦的なデータセットにおいて、最先端のGCNライクなフレームワークよりも優れている。
また、最先端のSNNフレームワークよりも精度が高い。
具体的には,NTU-RGB+D60クロスオブジェクトスプリットの競争精度を維持しつつ,通常のGCN法と比較してエネルギー消費量を98%以上削減する。
関連論文リスト
- SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion [0.7910116766220068]
マルチモーダル・ヒューマン・アクション認識のための新しいスパイキングニューラルネットワーク(SNN)駆動のフレームワークを提案する。
本フレームワークは,(1)モダリティごとに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャ,(2)SNNに基づく離散化情報ボトルネック機構のパイオニアである。
論文 参考訳(メタデータ) (2025-02-19T02:50:51Z) - Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.707548544084083]
スパイキングニューラルネットワーク(SNN)は、スケルトン力学のモデル化に苦慮し、最適以下のソリューションに繋がる。
本稿では,スケルトン配列の時間次元をスパイク時間ステップとして利用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
3つの大規模なデータセットを対象とした実験では、精度と計算効率において、最先端のSNNベースの手法を超えるSignal-SGNが明らかになった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - Continuous Spiking Graph Neural Networks [43.28609498855841]
連続グラフニューラルネットワーク(CGNN)は、既存の離散グラフニューラルネットワーク(GNN)を一般化する能力によって注目されている。
本稿では,2階ODEを用いたCOS-GNNの高次構造について紹介する。
我々は、COS-GNNが爆発や消滅の問題を効果的に軽減し、ノード間の長距離依存関係を捕捉できるという理論的証明を提供する。
論文 参考訳(メタデータ) (2024-04-02T12:36:40Z) - Enhancing Energy Efficiency and Reliability in Autonomous Systems
Estimation using Neuromorphic Approach [0.0]
本研究ではスパイク符号化理論とスパイクニューラルネットワーク(SNN)に基づく推定フレームワークの導入に焦点をあてる。
本稿では,SNNに基づくKalmanフィルタ(KF)を提案する。
改良型スライディング・イノベーション・フィルタ(MSIF)に基づいて,SNN-MSIFと呼ばれるロバストな戦略を提案する。
論文 参考訳(メタデータ) (2023-07-16T06:47:54Z) - Evaluating Distribution System Reliability with Hyperstructures Graph
Convolutional Nets [74.51865676466056]
本稿では,グラフ畳み込みネットワークとハイパー構造表現学習フレームワークを,精度,信頼性,計算効率のよい分散グリッド計画に活用する方法を示す。
数値実験の結果,提案手法は計算効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2022-11-14T01:29:09Z) - MGNNI: Multiscale Graph Neural Networks with Implicit Layers [53.75421430520501]
暗黙グラフニューラルネットワーク(GNN)は、基礎となるグラフの長距離依存性をキャプチャするために提案されている。
暗黙的GNNの2つの弱点は、長距離依存を捉えるための限られた有効範囲による制約付き表現性と、複数の解像度でグラフ上のマルチスケール情報をキャプチャする能力の欠如である。
グラフ上のマルチスケール構造をモデル化できる暗黙の層(MGNNI)を持つマルチスケールグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T18:18:55Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Spiking Graph Convolutional Networks [19.36064180392385]
SpikingGCNは、GCNの埋め込みとSNNの生体忠実性特性を統合することを目的としたエンドツーエンドフレームワークである。
ニューロモルフィックチップ上でのスパイキングGCNは、グラフデータ解析にエネルギー効率の明確な利点をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-05T16:44:36Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。