論文の概要: SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition
- arxiv url: http://arxiv.org/abs/2406.15034v1
- Date: Fri, 21 Jun 2024 10:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.446018
- Title: SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition
- Title(参考訳): SVFormer: 効果的なビデオアクション認識のためのダイレクトトレーニングスパイキング変換器
- Authors: Liutao Yu, Liwei Huang, Chenlin Zhou, Han Zhang, Zhengyu Ma, Huihui Zhou, Yonghong Tian,
- Abstract要約: ビデオ行動認識(VAR)は、監視、医療、産業自動化といった様々な領域において重要な役割を果たす。
VARのためのSVFormer(Spiking Video transFormer)を提案する。
SVFormerは、SNNの局所的特徴抽出、グローバルな自己注意、本質的なダイナミクス、疎性、スパイク駆動の性質を統合している。
- 参考スコア(独自算出の注目度): 25.0403187283805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action recognition (VAR) plays crucial roles in various domains such as surveillance, healthcare, and industrial automation, making it highly significant for the society. Consequently, it has long been a research spot in the computer vision field. As artificial neural networks (ANNs) are flourishing, convolution neural networks (CNNs), including 2D-CNNs and 3D-CNNs, as well as variants of the vision transformer (ViT), have shown impressive performance on VAR. However, they usually demand huge computational cost due to the large data volume and heavy information redundancy introduced by the temporal dimension. To address this challenge, some researchers have turned to brain-inspired spiking neural networks (SNNs), such as recurrent SNNs and ANN-converted SNNs, leveraging their inherent temporal dynamics and energy efficiency. Yet, current SNNs for VAR also encounter limitations, such as nontrivial input preprocessing, intricate network construction/training, and the need for repetitive processing of the same video clip, hindering their practical deployment. In this study, we innovatively propose the directly trained SVFormer (Spiking Video transFormer) for VAR. SVFormer integrates local feature extraction, global self-attention, and the intrinsic dynamics, sparsity, and spike-driven nature of SNNs, to efficiently and effectively extract spatio-temporal features. We evaluate SVFormer on two RGB datasets (UCF101, NTU-RGBD60) and one neuromorphic dataset (DVS128-Gesture), demonstrating comparable performance to the mainstream models in a more efficient way. Notably, SVFormer achieves a top-1 accuracy of 84.03% with ultra-low power consumption (21 mJ/video) on UCF101, which is state-of-the-art among directly trained deep SNNs, showcasing significant advantages over prior models.
- Abstract(参考訳): ビデオ行動認識(VAR)は、監視、医療、産業自動化といった様々な領域において重要な役割を担っており、社会にとって非常に重要である。
そのため、コンピュータビジョンの分野では長い間研究の場であった。
人工ニューラルネットワーク(ANN)が盛んになると、2D-CNNや3D-CNNを含む畳み込みニューラルネットワーク(CNN)や、視覚トランスフォーマー(ViT)の変種は、VARで顕著なパフォーマンスを示した。
しかし、それらは通常、時間次元によって導入された大きなデータボリュームと重い情報冗長性のために、膨大な計算コストを必要とする。
この課題に対処するために、一部の研究者は脳にインスパイアされたスパイクニューラルネットワーク(SNN)に目を向けた。
しかしながら、現在のVAR用SNNは、非自明な入力前処理、複雑なネットワーク構築/トレーニング、同じビデオクリップの反復処理の必要性といった制限に直面するため、実際のデプロイメントを妨げている。
本研究では,VARのためのSVFormer(Spiking Video transFormer)を革新的に提案する。
SVFormerは、局所的特徴抽出、大域的自己注意、SNNの内在的ダイナミクス、空間性、スパイク駆動性を統合し、時空間的特徴を効率的かつ効果的に抽出する。
SVFormerを2つのRGBデータセット (UCF101, NTU-RGBD60) と1つのニューロモルフィックデータセット (DVS128-Gesture) で評価し、主流モデルと同等の性能をより効率的に示す。
特にSVFormerは、UCF101上の超低消費電力(21 mJ/ビデオ)で84.03%というトップ1の精度を実現している。
関連論文リスト
- Scalable Mechanistic Neural Networks [52.28945097811129]
長い時間的シーケンスを含む科学機械学習応用のための拡張ニューラルネットワークフレームワークを提案する。
元のメカニスティックニューラルネットワーク (MNN) を再構成することにより、計算時間と空間の複雑さを、それぞれ、列長に関して立方体と二次体から線形へと減少させる。
大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。
論文 参考訳(メタデータ) (2024-10-08T14:27:28Z) - Towards Scalable GPU-Accelerated SNN Training via Temporal Fusion [8.995682796140429]
スパイキングニューラルネットワーク(SNN)は、人工知能の変革的発展として出現する。
SNNは、特別なスパース計算ハードウェア上で有望な効率を示すが、その実践訓練は、しばしば従来のGPUに依存している。
本稿では,GPUプラットフォーム上でのSNNの伝搬ダイナミクスを高速化する新しい時間融合法を提案する。
論文 参考訳(メタデータ) (2024-08-01T04:41:56Z) - Applications of Spiking Neural Networks in Visual Place Recognition [19.577433371468533]
スパイキングニューラルネットワーク(SNN)は、その潜在的なエネルギー効率と低レイテンシについて、ますます認識されている。
本稿では,視覚的位置認識(VPR)におけるSNNの3つの進歩について述べる。
まず,各SNNが重複しない地理的に異なる場所の集合を表すモジュールSNNを提案する。
次に、複数のネットワークが同じ場所を表すモジュールSNNのアンサンブルを示す。
最後に,SNNに基づくVPRにおけるシーケンスマッチングの役割について検討する。
論文 参考訳(メタデータ) (2023-11-22T06:26:24Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Rethinking Pretraining as a Bridge from ANNs to SNNs [13.984523794353477]
スパイキングニューラルネットワーク(SNN)は、特有の特徴を持つ脳にインスパイアされた典型的なモデルとして知られている。
高い精度のモデルを得る方法は、常にSNNの分野における主要な課題である。
論文 参考訳(メタデータ) (2022-03-02T14:59:57Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Keys to Accurate Feature Extraction Using Residual Spiking Neural
Networks [1.101002667958165]
スパイキングニューラルネットワーク(SNN)は、従来の人工ニューラルネットワーク(ANN)の代替として興味深いものになった
本稿では,現代のスパイク建築の鍵となる構成要素について述べる。
我々は、成功しているResNetアーキテクチャのスパイクバージョンを設計し、異なるコンポーネントとトレーニング戦略をテストする。
論文 参考訳(メタデータ) (2021-11-10T21:29:19Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Tensor train decompositions on recurrent networks [60.334946204107446]
マトリックス製品状態(MPS)テンソルトレインは、ストレージの削減と推論時の計算時間の観点から、MPOよりも魅力的な特徴を持つ。
理論解析により,MPSテンソル列車はLSTMネットワーク圧縮の最前線に置かれるべきであることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:25:39Z) - You Only Spike Once: Improving Energy-Efficient Neuromorphic Inference
to ANN-Level Accuracy [51.861168222799186]
スパイキングニューラルネットワーク(英: Spiking Neural Networks、SNN)は、神経型ネットワークの一種である。
SNNはスパースであり、重量はごくわずかであり、通常、より電力集約的な乗算および累積演算の代わりに追加操作のみを使用する。
本研究では,TTFS符号化ニューロモルフィックシステムの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2020-06-03T15:55:53Z) - Convolutional Spiking Neural Networks for Spatio-Temporal Feature
Extraction [3.9898522485253256]
スパイキングニューラルネットワーク(SNN)は低消費電力および組み込みシステムで使用できる。
畳み込みニューラルネットワークやその他の種類のSNNの層における時間符号化はまだ研究されていない。
現実世界の問題に対処するための,新たな深層スパイクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T11:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。