論文の概要: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2404.10210v4
- Date: Fri, 13 Dec 2024 03:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:33.554451
- Title: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- Title(参考訳): MK-SGN:スケルトンに基づく行動認識のためのマルチモーダル融合と知識蒸留を用いたスパイキンググラフ畳み込みネットワーク
- Authors: Naichuan Zheng, Hailun Xia, Zeyu Liang, Yuchen Du,
- Abstract要約: MK-SGNはスケルトンに基づく行動認識にスパイキングニューラルネットワーク(SNN)のエネルギー効率を活用するために提案されている。
GCNのグラフ表現能力とSNNの省エネルギー性を統合することにより、MK-SGNはエネルギー消費を大幅に削減する。
提案手法は従来のGCN法に比べて98%以上のエネルギー消費を著しく削減する。
- 参考スコア(独自算出の注目度): 0.8942525984879532
- License:
- Abstract: In recent years, multimodal Graph Convolutional Networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. The reliance on high-energy-consuming continuous floating-point operations inherent in GCN-based methods poses significant challenges for deployment in energy-constrained, battery-powered edge devices. To address these limitations, MK-SGN, a Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation, is proposed to leverage the energy efficiency of Spiking Neural Networks (SNNs) for skeleton-based action recognition for the first time. By integrating the energy-saving properties of SNNs with the graph representation capabilities of GCNs, MK-SGN achieves significant reductions in energy consumption while maintaining competitive recognition accuracy. Firstly, we formulate a Spiking Multimodal Fusion (SMF) module to effectively fuse multimodal skeleton data represented as spike-form features. Secondly, we propose the Self-Attention Spiking Graph Convolution (SA-SGC) module and the Spiking Temporal Convolution (STC) module, to capture spatial relationships and temporal dynamics of spike-form features. Finally, we propose an integrated knowledge distillation strategy to transfer information from the multimodal GCN to the SGN, incorporating both intermediate-layer distillation and soft-label distillation to enhance the performance of the SGN. MK-SGN exhibits substantial advantages, surpassing state-of-the-art GCN frameworks in energy efficiency and outperforming state-of-the-art SNN frameworks in recognition accuracy. The proposed method achieves a remarkable reduction in energy consumption, exceeding 98\% compared to conventional GCN-based approaches. This research establishes a robust baseline for developing high-performance, energy-efficient SNN-based models for skeleton-based action recognition
- Abstract(参考訳): 近年,マルチモーダルグラフ畳み込みネットワーク (GCN) は骨格に基づく行動認識において顕著な性能を発揮している。
GCNベースの手法に固有の高エネルギー消費連続浮動小数点演算への依存は、エネルギー制約のバッテリー駆動エッジデバイスへの展開に重大な課題をもたらす。
これらの制約に対処するため,マルチモーダルフュージョンと知識蒸留を備えたスパイキンググラフ畳み込みネットワークであるMK-SGNを提案し,スケルトンに基づく行動認識にスパイキングニューラルネットワーク(SNN)のエネルギー効率を初めて活用した。
GCNのグラフ表現能力とSNNの省エネ特性を統合することにより、MK-SGNは、競合認識精度を維持しながら、エネルギー消費の大幅な削減を実現する。
まず,スパイキング・マルチモーダル・フュージョン(SMF)モジュールを定式化し,スパイク形式の特徴として表されるマルチモーダルスケルトンデータを効果的に融合する。
次に、スパイク形式の特徴の空間的関係と時間的ダイナミクスを捉えるために、SA-SGC(Self-Attention Spiking Graph Convolution)モジュールとSTC(Spike Temporal Convolution)モジュールを提案する。
最後に, 中間層蒸留とソフトラベル蒸留を併用して, SGNの性能を高めるため, マルチモーダルGCNからSGNへ情報を伝達する統合的知識蒸留戦略を提案する。
MK-SGNは、エネルギー効率において最先端のGCNフレームワークを上回り、認識精度において最先端のSNNフレームワークを上回っている。
提案手法は, 従来のGCN法と比較して, 98%を超えるエネルギー消費を著しく削減する。
本研究は骨格に基づく行動認識のための高性能エネルギー効率SNNモデル構築のための堅牢なベースラインを確立する。
関連論文リスト
- Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.9578022754506605]
骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)はその複雑さと高エネルギー消費のために制限に直面している。
本稿では、骨格配列の時間次元をスパイキング時間ステップとして活用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
実験により,提案モデルが既存のSNN法を精度で上回るだけでなく,学習時の計算記憶コストも低減できることがわかった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - Spiking Variational Graph Auto-Encoders for Efficient Graph
Representation Learning [10.65760757021534]
本稿では,効率的なグラフ表現学習のためのSNNに基づく深層生成手法,すなわちSpking Variational Graph Auto-Encoders (S-VGAE)を提案する。
我々は,複数のベンチマークグラフデータセット上でリンク予測実験を行い,この結果から,グラフ表現学習における他のANNやSNNに匹敵する性能で,より少ないエネルギーを消費することを示した。
論文 参考訳(メタデータ) (2022-10-24T12:54:41Z) - Spiking Graph Convolutional Networks [19.36064180392385]
SpikingGCNは、GCNの埋め込みとSNNの生体忠実性特性を統合することを目的としたエンドツーエンドフレームワークである。
ニューロモルフィックチップ上でのスパイキングGCNは、グラフデータ解析にエネルギー効率の明確な利点をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-05T16:44:36Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Multi-scale Graph Convolutional Networks with Self-Attention [2.66512000865131]
グラフ畳み込みネットワーク(GCN)は,様々なグラフ構造データを扱うための優れた学習能力を実現している。
GCNsの重要な問題として, 過平滑化現象が解決され, 検討が続けられている。
本稿では,GCNの設計に自己認識機構とマルチスケール情報を取り入れた2つの新しいマルチスケールGCNフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:41:24Z) - Fusion-GCN: Multimodal Action Recognition using Graph Convolutional
Networks [0.5801044612920815]
Fusion-GCNは、グラフ畳み込みネットワーク(GCN)を用いたマルチモーダル動作認識のためのアプローチ
我々は,マルチモーダル動作認識のためのGCNモデルを用いて訓練されたグラフに,センサデータモダリティを統合する。
論文 参考訳(メタデータ) (2021-09-27T10:52:33Z) - Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.59146413326056]
ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指します。
一連の実験により、最適化されたネットワークは計算複雑性を減らし、メモリ消費を減らし、推論速度を加速した。
論文 参考訳(メタデータ) (2021-04-12T17:59:16Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。