論文の概要: S3T-Former: A Purely Spike-Driven State-Space Topology Transformer for Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2603.18062v1
- Date: Wed, 18 Mar 2026 02:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.734686
- Title: S3T-Former: A Purely Spike-Driven State-Space Topology Transformer for Skeleton Action Recognition
- Title(参考訳): S3T-Former:スケルトン行動認識のための純粋スパイク駆動状態空間変換器
- Authors: Naichuan Zheng, Hailun Xia, Zepeng Sun, Weiyi Li, Yujia Wang,
- Abstract要約: Spiking State-Space Topology Transformer (S3T-Former)は、エネルギー効率の良い骨格動作認識のために設計された、最初の純粋にスパイク駆動のTransformerアーキテクチャである。
真のトポロジ的・時間的空間性を実現するために、オンデマンドの条件付きスパイク伝搬のための横方向スパイキングトポロジ・ルーティング(LSTR)を導入する。
複数の大規模データセットの実験により、S3T-Formerはエネルギー消費を理論的に低減しながら高い競争精度を達成することを示した。
- 参考スコア(独自算出の注目度): 11.456020141268832
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Skeleton-based action recognition is crucial for multimedia applications but heavily relies on power-hungry Artificial Neural Networks (ANNs), limiting their deployment on resource-constrained edge devices. Spiking Neural Networks (SNNs) provide an energy-efficient alternative; however, existing spiking models for skeleton data often compromise the intrinsic sparsity of SNNs by resorting to dense matrix aggregations, heavy multimodal fusion modules, or non-sparse frequency domain transformations. Furthermore, they severely suffer from the short-term amnesia of spiking neurons. In this paper, we propose the Spiking State-Space Topology Transformer (S3T-Former), which, to the best of our knowledge, is the first purely spike-driven Transformer architecture specifically designed for energy-efficient skeleton action recognition. Rather than relying on heavy fusion overhead, we formulate a Multi-Stream Anatomical Spiking Embedding (M-ASE) that acts as a generalized kinematic differential operator, elegantly transforming multimodal skeleton features into heterogeneous, highly sparse event streams. To achieve true topological and temporal sparsity, we introduce Lateral Spiking Topology Routing (LSTR) for on-demand conditional spike propagation, and a Spiking State-Space (S3) Engine to systematically capture long-range temporal dynamics without non-sparse spectral workarounds. Extensive experiments on multiple large-scale datasets demonstrate that S3T-Former achieves highly competitive accuracy while theoretically reducing energy consumption compared to classic ANNs, establishing a new state-of-the-art for energy-efficient neuromorphic action recognition.
- Abstract(参考訳): Skeletonベースのアクション認識はマルチメディアアプリケーションには不可欠だが、パワーハングリーなニューラルネットワーク(ANN)に大きく依存しているため、リソース制約のあるエッジデバイスへのデプロイメントが制限されている。
スパイキングニューラルネットワーク(SNN)はエネルギー効率のよい代替手段であるが、スケルトンデータに対する既存のスパイキングモデルは、密度のマトリックスアグリゲーション、重いマルチモーダル融合モジュール、または非スパース周波数領域変換に頼って、SNNの本質的な間隔を損なうことが多い。
さらに、彼らはスパイキングニューロンの短期記憶に苦しむ。
本稿では,S3T-Former(Spking State-Space Topology Transformer)を提案する。
重核融合のオーバーヘッドに頼るのではなく、一般化された運動微分作用素として機能するマルチストリーム解剖学スパイキング・エンベディング(M-ASE)を定式化し、マルチモーダルスケルトンの特徴をヘテロジニアスでスパースなイベントストリームにエレガントに変換する。
真のトポロジ的・時間的間隔を実現するために、オンデマンドな条件付きスパイク伝搬のための横方向スパイキングトポロジ・ルーティング(LSTR)と、非スパーススペクトル回避なしに長距離時間ダイナミクスを体系的に捕捉するスパイキング状態空間(S3)エンジンを導入する。
複数の大規模データセットに対する大規模な実験により、S3T-Formerは古典的なANNと比較してエネルギー消費を理論的に減少させ、エネルギー効率のよいニューロモルフィックな行動認識のための新しい最先端技術を確立しながら、高い競争精度を達成することが示された。
関連論文リスト
- Subtractive Modulative Network with Learnable Periodic Activations [59.89799070130572]
本稿では,古典的部分抽出合成にインスパイアされた,パラメータ効率の高いインプシットニューラル表現アーキテクチャを提案する。
我々のSMNは2つの画像データセット上で40ドル以上のPSNRを達成し、再現精度とパラメータ効率の両面で最先端の手法と比較した。
論文 参考訳(メタデータ) (2026-02-18T10:20:50Z) - Signal-SGN++: Topology-Enhanced Time-Frequency Spiking Graph Network for Skeleton-Based Action Recognition [0.23332469289621785]
スパイキングニューラルネットワーク(SNN)はエネルギー効率を提供するが、人間の動きの時間的・時間的・位相的依存関係を捉えるには限界がある。
本稿では、適応性と時間周波数スパイキングダイナミクスを統合するトポロジ対応スパイキンググラフフレームワークであるSignal-SGN++を提案する。
論文 参考訳(メタデータ) (2025-12-22T09:16:04Z) - PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement [63.007237197267834]
既存のディープラーニング手法は、主に生理学的モニタリングであり、理論的な堅牢性を欠いている。
本研究では,Navier-Stokes方程式のヘモダイナミックスから導かれる物理インフォームド r パラダイムを提案し,パルス信号が2次系に従うことを示す。
これは、時間的円錐ネットワーク(TCN)を使用する理論的正当性を提供する。
Phase-Netは高い効率で最先端のパフォーマンスを実現し、理論上は基礎的でデプロイ可能な r ソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-29T14:36:45Z) - Fractional Spike Differential Equations Neural Network with Efficient Adjoint Parameters Training [63.3991315762955]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンからインスピレーションを得て、脳に似た計算の現実的なモデルを作成する。
既存のほとんどのSNNは、マルコフ特性を持つ一階常微分方程式(ODE)によってモデル化された、神経細胞膜電圧ダイナミクスの単一時間定数を仮定している。
本研究では, 膜電圧およびスパイク列車の長期依存性を分数次力学により捉えるフラクタルSPIKE微分方程式ニューラルネットワーク (fspikeDE) を提案する。
論文 参考訳(メタデータ) (2025-07-22T18:20:56Z) - BrainSymphony: A Transformer-Driven Fusion of fMRI Time Series and Structural Connectivity [2.3486335708866606]
BrainSymphonyは、ニューロイメージングのための軽量でパラメータ効率の良い基礎モデルである。
かなり小さなパブリックデータセットで事前トレーニングされた状態で、最先端のパフォーマンスを実現する。
BrainSymphonyは、アーキテクチャを意識したマルチモーダルモデルがより大きなモデルを上回る可能性があることを証明している。
論文 参考訳(メタデータ) (2025-06-23T06:00:21Z) - Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [0.7326395356941241]
スパイキングニューラルネットワーク(SNN)は、スケルトン力学のモデル化に苦慮し、最適以下のソリューションに繋がる。
本稿では,スケルトン配列の時間次元をスパイク時間ステップとして利用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
3つの大規模なデータセットを対象とした実験では、精度と計算効率において、最先端のSNNベースの手法を超えるSignal-SGNが明らかになった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - Contextualizing MLP-Mixers Spatiotemporally for Urban Data Forecast at Scale [54.15522908057831]
本稿では,STTD予測を大規模に行うためのコンピュータ・ミクサーの適応版を提案する。
我々の結果は、この単純な効率の良いソリューションが、いくつかのトラフィックベンチマークでテストした場合、SOTAベースラインに匹敵する可能性があることを驚くほど示している。
本研究は, 実世界のSTTD予測において, 簡便な有効モデルの探索に寄与する。
論文 参考訳(メタデータ) (2023-07-04T05:19:19Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。