論文の概要: SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion
- arxiv url: http://arxiv.org/abs/2502.13385v1
- Date: Wed, 19 Feb 2025 02:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:52.607021
- Title: SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion
- Title(参考訳): イベントカメラとスケルトンデータフュージョンによるSNN駆動型マルチモーダルヒューマンアクション認識
- Authors: Naichuan Zheng, Hailun Xia,
- Abstract要約: マルチモーダル・ヒューマン・アクション認識のための新しいスパイキングニューラルネットワーク(SNN)駆動のフレームワークを提案する。
本フレームワークは,(1)モダリティごとに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャ,(2)SNNに基づく離散化情報ボトルネック機構のパイオニアである。
- 参考スコア(独自算出の注目度): 0.7910116766220068
- License:
- Abstract: Multimodal human action recognition based on RGB and skeleton data fusion, while effective, is constrained by significant limitations such as high computational complexity, excessive memory consumption, and substantial energy demands, particularly when implemented with Artificial Neural Networks (ANN). These limitations restrict its applicability in resource-constrained scenarios. To address these challenges, we propose a novel Spiking Neural Network (SNN)-driven framework for multimodal human action recognition, utilizing event camera and skeleton data. Our framework is centered on two key innovations: (1) a novel multimodal SNN architecture that employs distinct backbone networks for each modality-an SNN-based Mamba for event camera data and a Spiking Graph Convolutional Network (SGN) for skeleton data-combined with a spiking semantic extraction module to capture deep semantic representations; and (2) a pioneering SNN-based discretized information bottleneck mechanism for modality fusion, which effectively balances the preservation of modality-specific semantics with efficient information compression. To validate our approach, we propose a novel method for constructing a multimodal dataset that integrates event camera and skeleton data, enabling comprehensive evaluation. Extensive experiments demonstrate that our method achieves superior performance in both recognition accuracy and energy efficiency, offering a promising solution for practical applications.
- Abstract(参考訳): RGBとスケルトンデータ融合に基づくマルチモーダルな人間行動認識は、有効ではあるが、高い計算複雑性、過剰なメモリ消費、そして特にニューラルネットワーク(ANN)で実装された場合のかなりのエネルギー需要といった、重大な制限によって制限されている。
これらの制限は、リソース制約のあるシナリオにおける適用性を制限する。
これらの課題に対処するために、イベントカメラとスケルトンデータを利用して、マルチモーダルな人間行動認識のための新しいスパイキングニューラルネットワーク(SNN)駆動フレームワークを提案する。
本フレームワークは,(1)イベントカメラデータに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャと,深いセマンティック表現をキャプチャするためのスパイキングセマンティック抽出モジュールと組み合わせたスケルトンデータのためのスパイキンググラフ畳み込みネットワーク(SGN)と,(2)モダリティ融合のためのSNNベースの離散化情報ボトルネック機構のパイオニアである。
本稿では,イベントカメラとスケルトンデータを統合するマルチモーダルデータセットの構築手法を提案する。
広汎な実験により,本手法は認識精度とエネルギー効率の両方において優れた性能を示し,実用的な応用に期待できるソリューションを提供する。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Enhancing SNN-based Spatio-Temporal Learning: A Benchmark Dataset and Cross-Modality Attention Model [30.66645039322337]
高品質なベンチマークデータセットは、ニューラルネットワーク(SNN)の発展に非常に重要である
しかし、SNNベースのクロスモーダル融合はまだ未定である。
本研究では,SNNの時間的特性をよりよく活用できるニューロモルフィックデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-21T06:59:04Z) - EvSegSNN: Neuromorphic Semantic Segmentation for Event Data [0.6138671548064356]
EvSegSNN は、Parametric Leaky Integrate と Fire のニューロンに依存した、生物学的に検証可能なエンコーダ-デコーダU字型アーキテクチャである。
本稿では,スパイキングニューラルネットワークとイベントカメラを組み合わせることによって,エンド・ツー・エンドのバイオインスパイアされたセマンティックセマンティックセマンティクス手法を提案する。
DDD17で実施された実験は、EvSegSNNがMIoUの観点から最も近い最先端モデルを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-20T10:36:24Z) - Q-SNNs: Quantized Spiking Neural Networks [12.719590949933105]
スパイキングニューラルネットワーク(SNN)はスパーススパイクを利用して情報を表現し、イベント駆動方式で処理する。
シナプス重みと膜電位の両方に量子化を適用する軽量でハードウェアフレンドリな量子化SNNを提案する。
本稿では,情報エントロピー理論にインスパイアされた新しいウェイトスパイクデュアルレギュレーション(WS-DR)法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:23:26Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。