論文の概要: SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion
- arxiv url: http://arxiv.org/abs/2502.13385v1
- Date: Wed, 19 Feb 2025 02:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:52.607021
- Title: SNN-Driven Multimodal Human Action Recognition via Event Camera and Skeleton Data Fusion
- Title(参考訳): イベントカメラとスケルトンデータフュージョンによるSNN駆動型マルチモーダルヒューマンアクション認識
- Authors: Naichuan Zheng, Hailun Xia,
- Abstract要約: マルチモーダル・ヒューマン・アクション認識のための新しいスパイキングニューラルネットワーク(SNN)駆動のフレームワークを提案する。
本フレームワークは,(1)モダリティごとに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャ,(2)SNNに基づく離散化情報ボトルネック機構のパイオニアである。
- 参考スコア(独自算出の注目度): 0.7910116766220068
- License:
- Abstract: Multimodal human action recognition based on RGB and skeleton data fusion, while effective, is constrained by significant limitations such as high computational complexity, excessive memory consumption, and substantial energy demands, particularly when implemented with Artificial Neural Networks (ANN). These limitations restrict its applicability in resource-constrained scenarios. To address these challenges, we propose a novel Spiking Neural Network (SNN)-driven framework for multimodal human action recognition, utilizing event camera and skeleton data. Our framework is centered on two key innovations: (1) a novel multimodal SNN architecture that employs distinct backbone networks for each modality-an SNN-based Mamba for event camera data and a Spiking Graph Convolutional Network (SGN) for skeleton data-combined with a spiking semantic extraction module to capture deep semantic representations; and (2) a pioneering SNN-based discretized information bottleneck mechanism for modality fusion, which effectively balances the preservation of modality-specific semantics with efficient information compression. To validate our approach, we propose a novel method for constructing a multimodal dataset that integrates event camera and skeleton data, enabling comprehensive evaluation. Extensive experiments demonstrate that our method achieves superior performance in both recognition accuracy and energy efficiency, offering a promising solution for practical applications.
- Abstract(参考訳): RGBとスケルトンデータ融合に基づくマルチモーダルな人間行動認識は、有効ではあるが、高い計算複雑性、過剰なメモリ消費、そして特にニューラルネットワーク(ANN)で実装された場合のかなりのエネルギー需要といった、重大な制限によって制限されている。
これらの制限は、リソース制約のあるシナリオにおける適用性を制限する。
これらの課題に対処するために、イベントカメラとスケルトンデータを利用して、マルチモーダルな人間行動認識のための新しいスパイキングニューラルネットワーク(SNN)駆動フレームワークを提案する。
本フレームワークは,(1)イベントカメラデータに異なるバックボーンネットワークを利用する新しいマルチモーダルSNNアーキテクチャと,深いセマンティック表現をキャプチャするためのスパイキングセマンティック抽出モジュールと組み合わせたスケルトンデータのためのスパイキンググラフ畳み込みネットワーク(SGN)と,(2)モダリティ融合のためのSNNベースの離散化情報ボトルネック機構のパイオニアである。
本稿では,イベントカメラとスケルトンデータを統合するマルチモーダルデータセットの構築手法を提案する。
広汎な実験により,本手法は認識精度とエネルギー効率の両方において優れた性能を示し,実用的な応用に期待できるソリューションを提供する。
関連論文リスト
- Enhancing Audio-Visual Spiking Neural Networks through Semantic-Alignment and Cross-Modal Residual Learning [10.862065825733243]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされた計算モデルである。
既存のSNNモデルは、一モーダル処理に重点を置いており、効率的なクロスモーダル情報融合を欠いている。
本稿では,効果的な音声・視覚統合のための意味的アライメント・クロスモーダル残差学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T03:18:29Z) - CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics [7.696109414724968]
スパイキングニューラルネットワーク(SNN)は、イベントベースのオブジェクト認識と検出を約束する。
既存のSNNフレームワークは、多くの場合、マルチスケールの時間的特徴を扱うことができず、データの冗長性が向上し、精度が低下する。
我々は、イベントベースのオブジェクト検出を利用するために、結合的にトレーニングされた新しいスパイク駆動フレームワークであるCRESTを提案する。
論文 参考訳(メタデータ) (2024-12-17T04:33:31Z) - Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Enhancing SNN-based Spatio-Temporal Learning: A Benchmark Dataset and Cross-Modality Attention Model [30.66645039322337]
高品質なベンチマークデータセットは、ニューラルネットワーク(SNN)の発展に非常に重要である
しかし、SNNベースのクロスモーダル融合はまだ未定である。
本研究では,SNNの時間的特性をよりよく活用できるニューロモルフィックデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-21T06:59:04Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。