論文の概要: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2404.10210v4
- Date: Fri, 13 Dec 2024 03:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:33.554451
- Title: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- Title(参考訳): MK-SGN:スケルトンに基づく行動認識のためのマルチモーダル融合と知識蒸留を用いたスパイキンググラフ畳み込みネットワーク
- Authors: Naichuan Zheng, Hailun Xia, Zeyu Liang, Yuchen Du,
- Abstract要約: MK-SGNはスケルトンに基づく行動認識にスパイキングニューラルネットワーク(SNN)のエネルギー効率を活用するために提案されている。
GCNのグラフ表現能力とSNNの省エネルギー性を統合することにより、MK-SGNはエネルギー消費を大幅に削減する。
提案手法は従来のGCN法に比べて98%以上のエネルギー消費を著しく削減する。
- 参考スコア(独自算出の注目度): 0.8942525984879532
- License:
- Abstract: In recent years, multimodal Graph Convolutional Networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. The reliance on high-energy-consuming continuous floating-point operations inherent in GCN-based methods poses significant challenges for deployment in energy-constrained, battery-powered edge devices. To address these limitations, MK-SGN, a Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation, is proposed to leverage the energy efficiency of Spiking Neural Networks (SNNs) for skeleton-based action recognition for the first time. By integrating the energy-saving properties of SNNs with the graph representation capabilities of GCNs, MK-SGN achieves significant reductions in energy consumption while maintaining competitive recognition accuracy. Firstly, we formulate a Spiking Multimodal Fusion (SMF) module to effectively fuse multimodal skeleton data represented as spike-form features. Secondly, we propose the Self-Attention Spiking Graph Convolution (SA-SGC) module and the Spiking Temporal Convolution (STC) module, to capture spatial relationships and temporal dynamics of spike-form features. Finally, we propose an integrated knowledge distillation strategy to transfer information from the multimodal GCN to the SGN, incorporating both intermediate-layer distillation and soft-label distillation to enhance the performance of the SGN. MK-SGN exhibits substantial advantages, surpassing state-of-the-art GCN frameworks in energy efficiency and outperforming state-of-the-art SNN frameworks in recognition accuracy. The proposed method achieves a remarkable reduction in energy consumption, exceeding 98\% compared to conventional GCN-based approaches. This research establishes a robust baseline for developing high-performance, energy-efficient SNN-based models for skeleton-based action recognition
- Abstract(参考訳): 近年,マルチモーダルグラフ畳み込みネットワーク (GCN) は骨格に基づく行動認識において顕著な性能を発揮している。
GCNベースの手法に固有の高エネルギー消費連続浮動小数点演算への依存は、エネルギー制約のバッテリー駆動エッジデバイスへの展開に重大な課題をもたらす。
これらの制約に対処するため,マルチモーダルフュージョンと知識蒸留を備えたスパイキンググラフ畳み込みネットワークであるMK-SGNを提案し,スケルトンに基づく行動認識にスパイキングニューラルネットワーク(SNN)のエネルギー効率を初めて活用した。
GCNのグラフ表現能力とSNNの省エネ特性を統合することにより、MK-SGNは、競合認識精度を維持しながら、エネルギー消費の大幅な削減を実現する。
まず,スパイキング・マルチモーダル・フュージョン(SMF)モジュールを定式化し,スパイク形式の特徴として表されるマルチモーダルスケルトンデータを効果的に融合する。
次に、スパイク形式の特徴の空間的関係と時間的ダイナミクスを捉えるために、SA-SGC(Self-Attention Spiking Graph Convolution)モジュールとSTC(Spike Temporal Convolution)モジュールを提案する。
最後に, 中間層蒸留とソフトラベル蒸留を併用して, SGNの性能を高めるため, マルチモーダルGCNからSGNへ情報を伝達する統合的知識蒸留戦略を提案する。
MK-SGNは、エネルギー効率において最先端のGCNフレームワークを上回り、認識精度において最先端のSNNフレームワークを上回っている。
提案手法は, 従来のGCN法と比較して, 98%を超えるエネルギー消費を著しく削減する。
本研究は骨格に基づく行動認識のための高性能エネルギー効率SNNモデル構築のための堅牢なベースラインを確立する。
関連論文リスト
- SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion [0.7910116766220068]
マルチモーダル・ヒューマン・アクション認識のための新しいスパイキングニューラルネットワーク(SNN)駆動のフレームワークを提案する。
本フレームワークは,(1)モダリティごとに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャ,(2)SNNに基づく離散化情報ボトルネック機構のパイオニアである。
論文 参考訳(メタデータ) (2025-02-19T02:50:51Z) - Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.707548544084083]
スパイキングニューラルネットワーク(SNN)は、スケルトン力学のモデル化に苦慮し、最適以下のソリューションに繋がる。
本稿では,スケルトン配列の時間次元をスパイク時間ステップとして利用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
3つの大規模なデータセットを対象とした実験では、精度と計算効率において、最先端のSNNベースの手法を超えるSignal-SGNが明らかになった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - Continuous Spiking Graph Neural Networks [43.28609498855841]
連続グラフニューラルネットワーク(CGNN)は、既存の離散グラフニューラルネットワーク(GNN)を一般化する能力によって注目されている。
本稿では,2階ODEを用いたCOS-GNNの高次構造について紹介する。
我々は、COS-GNNが爆発や消滅の問題を効果的に軽減し、ノード間の長距離依存関係を捕捉できるという理論的証明を提供する。
論文 参考訳(メタデータ) (2024-04-02T12:36:40Z) - Enhancing Energy Efficiency and Reliability in Autonomous Systems
Estimation using Neuromorphic Approach [0.0]
本研究ではスパイク符号化理論とスパイクニューラルネットワーク(SNN)に基づく推定フレームワークの導入に焦点をあてる。
本稿では,SNNに基づくKalmanフィルタ(KF)を提案する。
改良型スライディング・イノベーション・フィルタ(MSIF)に基づいて,SNN-MSIFと呼ばれるロバストな戦略を提案する。
論文 参考訳(メタデータ) (2023-07-16T06:47:54Z) - Evaluating Distribution System Reliability with Hyperstructures Graph
Convolutional Nets [74.51865676466056]
本稿では,グラフ畳み込みネットワークとハイパー構造表現学習フレームワークを,精度,信頼性,計算効率のよい分散グリッド計画に活用する方法を示す。
数値実験の結果,提案手法は計算効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2022-11-14T01:29:09Z) - MGNNI: Multiscale Graph Neural Networks with Implicit Layers [53.75421430520501]
暗黙グラフニューラルネットワーク(GNN)は、基礎となるグラフの長距離依存性をキャプチャするために提案されている。
暗黙的GNNの2つの弱点は、長距離依存を捉えるための限られた有効範囲による制約付き表現性と、複数の解像度でグラフ上のマルチスケール情報をキャプチャする能力の欠如である。
グラフ上のマルチスケール構造をモデル化できる暗黙の層(MGNNI)を持つマルチスケールグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T18:18:55Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Spiking Graph Convolutional Networks [19.36064180392385]
SpikingGCNは、GCNの埋め込みとSNNの生体忠実性特性を統合することを目的としたエンドツーエンドフレームワークである。
ニューロモルフィックチップ上でのスパイキングGCNは、グラフデータ解析にエネルギー効率の明確な利点をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-05T16:44:36Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - On the spatial attention in Spatio-Temporal Graph Convolutional Networks
for skeleton-based human action recognition [97.14064057840089]
カルチャーネットワーク(GCN)は、スケルトンをグラフとしてモデル化することで、スケルトンに基づく人間の行動認識の性能を約束する。
最近提案されたG時間に基づく手法のほとんどは、ネットワークの各層におけるグラフ構造を学習することで、性能を向上させる。
論文 参考訳(メタデータ) (2020-11-07T19:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。