論文の概要: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2404.10210v3
- Date: Fri, 18 Oct 2024 05:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 18:13:43.530850
- Title: MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition
- Title(参考訳): MK-SGN:スケルトンに基づく行動認識のためのマルチモーダル融合と知識蒸留を用いたスパイキンググラフ畳み込みネットワーク
- Authors: Naichuan Zheng, Hailun Xia, Zeyu Liang, Yuanyuan Chai,
- Abstract要約: 本稿では,MK-SGN(Multimodal Fusion and Knowledge Distillation)を用いたスポーキンググラフ畳み込みネットワークを提案する。
提案手法は、スパイキングニューラルネットワーク(SNN)のエネルギー効率とGCNのグラフ表現能力とを融合することにより、認識精度を維持しながらエネルギー消費量を削減する。
- 参考スコア(独自算出の注目度): 0.6442618560991484
- License:
- Abstract: In recent years, skeleton-based action recognition, leveraging multimodal Graph Convolutional Networks (GCN), has achieved remarkable results. However, due to their deep structure and reliance on continuous floating-point operations, GCN-based methods are energy-intensive. We propose an innovative Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation (MK-SGN) to address this issue. By merging the energy efficiency of Spiking Neural Network (SNN) with the graph representation capability of GCN, the proposed MK-SGN reduces energy consumption while maintaining recognition accuracy. Firstly, we convert Graph Convolutional Networks (GCN) into Spiking Graph Convolutional Networks (SGN) establishing a new benchmark and paving the way for future research exploration. During this process, we introduce a spiking attention mechanism and design a Spiking-Spatio Graph Convolution module with a Spatial Global Spiking Attention mechanism (SA-SGC), enhancing feature learning capability. Secondly, we propose a Spiking Multimodal Fusion module (SMF), leveraging mutual information to process multimodal data more efficiently. Lastly, we delve into knowledge distillation methods from multimodal GCN to SGN and propose a novel, integrated method that simultaneously focuses on both intermediate layer distillation and soft label distillation to improve the performance of SGN. MK-SGN outperforms the state-of-the-art GCN-like frameworks on three challenging datasets for skeleton-based action recognition in reducing energy consumption. It also outperforms the state-of-the-art SNN frameworks in accuracy. Specifically, our method reduces energy consumption by more than 98% compared to typical GCN-based methods, while maintaining competitive accuracy on the NTU-RGB+D 60 cross-subject split using 4-time steps.
- Abstract(参考訳): 近年,マルチモーダルグラフ畳み込みネットワーク(GCN)を利用した骨格に基づく行動認識が,目覚ましい成果を上げている。
しかし、その深い構造と連続的な浮動小数点演算に依存するため、GCNベースの手法はエネルギー集約的である。
本稿では,MK-SGN(Multimodal Fusion and Knowledge Distillation)を用いたスポーキンググラフ畳み込みネットワークを提案する。
提案手法は、スパイキングニューラルネットワーク(SNN)のエネルギー効率とGCNのグラフ表現能力とを融合することにより、認識精度を維持しながらエネルギー消費量を削減する。
まず、グラフ畳み込みネットワーク(GCN)をスパイキンググラフ畳み込みネットワーク(SGN)に変換し、新しいベンチマークを確立し、将来の研究への道を開く。
本研究では,空間的グローバルスパイキング・アテンション機構 (SA-SGC) を備えたスパイキング・スポーティシャグラフ・コンボリューション・モジュールの設計を行い,特徴学習能力の向上を図る。
第2に,マルチモーダルデータの処理をより効率的に行うために相互情報を活用するスパイキング・マルチモーダル・フュージョン・モジュール(SMF)を提案する。
最後に, マルチモーダルGCNからSGNへの知識蒸留手法を探求し, 中間層蒸留と軟質ラベル蒸留の両方に同時に焦点を合わせ, SGNの性能を向上させる新しい統合手法を提案する。
MK-SGNは、エネルギー消費を減らすために骨格に基づく行動認識のための3つの挑戦的なデータセットにおいて、最先端のGCNライクなフレームワークよりも優れている。
また、最先端のSNNフレームワークよりも精度が高い。
具体的には,NTU-RGB+D60クロスオブジェクトスプリットの競争精度を維持しつつ,通常のGCN法と比較してエネルギー消費量を98%以上削減する。
関連論文リスト
- Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.9578022754506605]
骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)はその複雑さと高エネルギー消費のために制限に直面している。
本稿では、骨格配列の時間次元をスパイキング時間ステップとして活用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
実験により,提案モデルが既存のSNN法を精度で上回るだけでなく,学習時の計算記憶コストも低減できることがわかった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - Spiking Variational Graph Auto-Encoders for Efficient Graph
Representation Learning [10.65760757021534]
本稿では,効率的なグラフ表現学習のためのSNNに基づく深層生成手法,すなわちSpking Variational Graph Auto-Encoders (S-VGAE)を提案する。
我々は,複数のベンチマークグラフデータセット上でリンク予測実験を行い,この結果から,グラフ表現学習における他のANNやSNNに匹敵する性能で,より少ないエネルギーを消費することを示した。
論文 参考訳(メタデータ) (2022-10-24T12:54:41Z) - Spiking Graph Convolutional Networks [19.36064180392385]
SpikingGCNは、GCNの埋め込みとSNNの生体忠実性特性を統合することを目的としたエンドツーエンドフレームワークである。
ニューロモルフィックチップ上でのスパイキングGCNは、グラフデータ解析にエネルギー効率の明確な利点をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-05T16:44:36Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Multi-scale Graph Convolutional Networks with Self-Attention [2.66512000865131]
グラフ畳み込みネットワーク(GCN)は,様々なグラフ構造データを扱うための優れた学習能力を実現している。
GCNsの重要な問題として, 過平滑化現象が解決され, 検討が続けられている。
本稿では,GCNの設計に自己認識機構とマルチスケール情報を取り入れた2つの新しいマルチスケールGCNフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:41:24Z) - Fusion-GCN: Multimodal Action Recognition using Graph Convolutional
Networks [0.5801044612920815]
Fusion-GCNは、グラフ畳み込みネットワーク(GCN)を用いたマルチモーダル動作認識のためのアプローチ
我々は,マルチモーダル動作認識のためのGCNモデルを用いて訓練されたグラフに,センサデータモダリティを統合する。
論文 参考訳(メタデータ) (2021-09-27T10:52:33Z) - Towards Efficient Graph Convolutional Networks for Point Cloud Handling [181.59146413326056]
ポイントクラウド上で学習するためのグラフ畳み込みネットワーク(GCN)の計算効率の向上を目指します。
一連の実験により、最適化されたネットワークは計算複雑性を減らし、メモリ消費を減らし、推論速度を加速した。
論文 参考訳(メタデータ) (2021-04-12T17:59:16Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。