論文の概要: SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and $\mathcal{O}(T)$ Complexity
- arxiv url: http://arxiv.org/abs/2505.10352v1
- Date: Thu, 15 May 2025 14:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.360056
- Title: SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and $\mathcal{O}(T)$ Complexity
- Title(参考訳): SpikeVideoFormer: ハミング注意と$\mathcal{O}(T)$ Complexityを備えた効率的なスパイク駆動ビデオトランスフォーマー
- Authors: Shihao Zou, Qingfeng Li, Wei Ji, Jingjing Li, Yongkui Yang, Guoqi Li, Chao Dong,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、さまざまな視覚タスクにおいて、ニューラルネットワーク(ANN)と競合する性能を示している。
本稿では,効率的なスパイク駆動型ビデオトランスフォーマーであるSpikeVideoFormerを紹介する。
提案手法は既存のSNN手法と比較して,SOTA(State-of-the-art)性能を実現することを示す。
- 参考スコア(独自算出の注目度): 32.99546963983819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spiking Neural Networks (SNNs) have shown competitive performance to Artificial Neural Networks (ANNs) in various vision tasks, while offering superior energy efficiency. However, existing SNN-based Transformers primarily focus on single-image tasks, emphasizing spatial features while not effectively leveraging SNNs' efficiency in video-based vision tasks. In this paper, we introduce SpikeVideoFormer, an efficient spike-driven video Transformer, featuring linear temporal complexity $\mathcal{O}(T)$. Specifically, we design a spike-driven Hamming attention (SDHA) which provides a theoretically guided adaptation from traditional real-valued attention to spike-driven attention. Building on SDHA, we further analyze various spike-driven space-time attention designs and identify an optimal scheme that delivers appealing performance for video tasks, while maintaining only linear temporal complexity. The generalization ability and efficiency of our model are demonstrated across diverse downstream video tasks, including classification, human pose tracking, and semantic segmentation. Empirical results show our method achieves state-of-the-art (SOTA) performance compared to existing SNN approaches, with over 15\% improvement on the latter two tasks. Additionally, it matches the performance of recent ANN-based methods while offering significant efficiency gains, achieving $\times 16$, $\times 10$ and $\times 5$ improvements on the three tasks. https://github.com/JimmyZou/SpikeVideoFormer
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、様々なビジョンタスクにおいて、ANN(Artificial Neural Networks)と競合する性能を示し、優れたエネルギー効率を提供している。
しかし、既存のSNNベースのトランスフォーマーは、主に単一イメージタスクに焦点を当て、空間的特徴を強調しながら、ビデオベースの視覚タスクにおいてSNNの効率を効果的に活用しない。
本稿では,効率的なスパイク駆動型ビデオトランスフォーマーであるSpikeVideoFormerを紹介し,線形時間的複雑性を$\mathcal{O}(T)$とする。
具体的には、スパイク駆動ハミングアテンション(SDHA)を設計し、従来の実値アテンションからスパイク駆動アテンションへ理論的にガイドされた適応を提供する。
SDHAに基づいて,様々なスパイク駆動型時空アテンション設計を解析し,線形時間的複雑さのみを維持しつつ,ビデオタスクに魅力的なパフォーマンスを提供する最適スキームを同定する。
モデルの一般化能力と効率性は,分類,ポーズトラッキング,セマンティックセグメンテーションなど,様々な下流ビデオタスクで実証される。
実験結果から,本手法は既存のSNN手法と比較して最先端のSOTA(State-of-the-art)性能を実現し,後者の2つの課題に対して15倍以上の改善が得られた。
さらに、最近のANNベースのメソッドのパフォーマンスにマッチし、大幅な効率向上を提供し、3つのタスクで$\times 16$、$\times 10$、$\times 5$を達成している。
https://github.com/JimmyZou/SpikeVideoFormer
関連論文リスト
- Scaling Spike-driven Transformer with Efficient Spike Firing Approximation Training [17.193023656793464]
脳にインスパイアされたスパイキングニューラルネットワーク(SNN)の野望は、従来のニューラルネットワーク(ANN)に代わる低消費電力な代替手段になることである。
この作業は、SNNとANNのパフォーマンスギャップと、SNNの高トレーニングコストという、このビジョンを実現する上での2つの大きな課題に対処する。
本研究では,2次発火機構によるスパイクニューロンの固有の欠陥を同定し,整数学習とスパイク駆動推論を用いたスパイクフィリング近似(SFA)法を提案する。
論文 参考訳(メタデータ) (2024-11-25T03:05:41Z) - Spiking Neural Network as Adaptive Event Stream Slicer [10.279359105384334]
イベントベースのカメラは、リッチエッジ情報、高ダイナミックレンジ、高時間分解能を提供する。
最先端のイベントベースのアルゴリズムの多くは、イベントを固定グループに分割することに依存しており、重要な時間情報の欠落をもたらす。
イベントストリームを適応的に分割可能な,新規に設計されたプラグアンドプレイイベント処理方式であるSpikeSlicerを提案する。
論文 参考訳(メタデータ) (2024-10-03T06:41:10Z) - ReSpike: Residual Frames-based Hybrid Spiking Neural Networks for Efficient Action Recognition [26.7175155847563]
スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)に代わる、魅力的なエネルギー効率の高い代替手段として登場した。
本稿では,ANNとSNNの強みを相乗化するハイブリッドフレームワークReSpikeを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:01:25Z) - Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - DA$^{\textbf{2}}$-Net : Diverse & Adaptive Attention Convolutional
Neural Network [0.6999740786886536]
DA$2$-Netは、フィードフォワードCNNが多様な機能を明示的にキャプチャし、ネットワークのパフォーマンスを効果的に向上させるために最も有益な機能を適応的に選択し、強調することを可能にする。
CIFAR100,SVHN,ImageNetなど,ベンチマークデータセット上でDA$2$-Netを広範囲に評価した。
論文 参考訳(メタデータ) (2021-11-25T16:25:16Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。