論文の概要: Spiking Vision Transformer with Saccadic Attention
- arxiv url: http://arxiv.org/abs/2502.12677v1
- Date: Tue, 18 Feb 2025 09:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:17.013121
- Title: Spiking Vision Transformer with Saccadic Attention
- Title(参考訳): サッカディック・アテンションを用いたスパイキング・ビジョン・トランス
- Authors: Shuai Wang, Malu Zhang, Dehao Zhang, Ammar Belatreche, Yichen Xiao, Yu Liang, Yimeng Shan, Qian Sun, Enqi Zhang, Yang Yang,
- Abstract要約: スパイキングニューラルネットワーク(SNN)とビジョントランスフォーマー(NNT)は、エネルギー効率と高性能の両方を達成する可能性を秘めている。
まず,SNNをベースとしたVTが限られた性能に悩まされている理由を分析し,バニラ自己保持機構と時間的スパイク列車とのミスマッチを同定する。
これらの問題に対処するために,革新的なサッカディックスパイク自己注意法(SSSA)を導入する。
SSSA機構に基づいてSNNベースのビジョントランス(SNN-ViT)を開発する。
- 参考スコア(独自算出の注目度): 14.447083381772375
- License:
- Abstract: The combination of Spiking Neural Networks (SNNs) and Vision Transformers (ViTs) holds potential for achieving both energy efficiency and high performance, particularly suitable for edge vision applications. However, a significant performance gap still exists between SNN-based ViTs and their ANN counterparts. Here, we first analyze why SNN-based ViTs suffer from limited performance and identify a mismatch between the vanilla self-attention mechanism and spatio-temporal spike trains. This mismatch results in degraded spatial relevance and limited temporal interactions. To address these issues, we draw inspiration from biological saccadic attention mechanisms and introduce an innovative Saccadic Spike Self-Attention (SSSA) method. Specifically, in the spatial domain, SSSA employs a novel spike distribution-based method to effectively assess the relevance between Query and Key pairs in SNN-based ViTs. Temporally, SSSA employs a saccadic interaction module that dynamically focuses on selected visual areas at each timestep and significantly enhances whole scene understanding through temporal interactions. Building on the SSSA mechanism, we develop a SNN-based Vision Transformer (SNN-ViT). Extensive experiments across various visual tasks demonstrate that SNN-ViT achieves state-of-the-art performance with linear computational complexity. The effectiveness and efficiency of the SNN-ViT highlight its potential for power-critical edge vision applications.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)とビジョントランスフォーマー(ViT)の組み合わせは、特にエッジビジョンアプリケーションに適したエネルギー効率と高性能の両方を達成する可能性を秘めている。
しかし、SNNベースのViTと彼らのANNとの間には、依然として大きなパフォーマンスギャップがある。
ここでは,SNNをベースとしたVTが限られた性能に苦しむ理由を最初に分析し,バニラ自己注意機構と時空間スパイク列車とのミスマッチを同定する。
このミスマッチにより、空間的関連性が低下し、時間的相互作用が制限される。
これらの課題に対処するため,生物のサッカディック・アテンション・メカニズムからインスピレーションを得て,革新的なサッカディック・スパイク・セルフ・アテンション(SSSA)法を導入した。
具体的には、空間領域において、SSSAは新しいスパイク分布に基づく手法を用いて、SNNベースのViTにおけるクエリとキーペアの関係を効果的に評価する。
時として、SSSAは、時間的相互作用を通じてシーン全体の理解を著しく向上させる、動的に選択された視覚領域に焦点をあてるサスカディック・インタラクション・モジュールを使用している。
SSSA機構に基づいてSNNベースのビジョントランス(SNN-ViT)を開発する。
様々な視覚的タスクにわたる広範囲な実験により、SNN-ViTは線形計算複雑性で最先端のパフォーマンスを達成することを示した。
SNN-ViTの有効性と効率性は、パワークリティカルエッジビジョン応用の可能性を強調している。
関連論文リスト
- Pedestrian intention prediction in Adverse Weather Conditions with Spiking Neural Networks and Dynamic Vision Sensors [0.0699049312989311]
本研究では,ダイナミック・ビジョン・センサ(DVS)と組み合わせたスパイキングニューラルネットワーク(SNN)の有効性を検討した。
我々は従来の畳み込みニューラルネットワーク(CNN)と比較してSNNの効率を評価する。
その結果、DVSと統合されたSNNは、計算オーバーヘッドを大幅に削減し、CNNと比較して困難条件における検出精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-01T15:58:24Z) - Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - Temporal Contrastive Learning for Spiking Neural Networks [23.963069990569714]
生物学的にインスパイアされたニューラルネットワーク(SNN)は、低エネルギー消費と時間的情報処理能力のためにかなりの注目を集めている。
本稿では、時間領域情報にコントラスト的監督を組み込むことにより、低レイテンシで高性能なSNNを得る新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:31:46Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - A Spatial-channel-temporal-fused Attention for Spiking Neural Networks [7.759491656618468]
スパイキングニューラルネットワーク(SNN)は、計算戦略を模倣し、情報処理においてかなりの能力を示す。
本研究では,SNNを誘導し,対象領域を効率的に捕捉する空間チャネル時間拡散アテンション(SCTFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-09-22T07:45:55Z) - On the Intrinsic Structures of Spiking Neural Networks [66.57589494713515]
近年、時間依存データやイベント駆動データを扱う大きな可能性から、SNNへの関心が高まっている。
スパイキング計算における本質的な構造の影響を総合的に調査する研究が数多く行われている。
この研究はSNNの本質的な構造を深く掘り下げ、SNNの表現性への影響を解明する。
論文 参考訳(メタデータ) (2022-06-21T09:42:30Z) - TCJA-SNN: Temporal-Channel Joint Attention for Spiking Neural Networks [22.965024490694525]
スパイキングニューラルネットワーク(SNN)は、生物学的妥当性、エネルギー効率、強力な時間情報表現能力によって、広く関心を集めている。
本稿では,TJA-SNNと呼ばれるSNNの時間・チャネル共同注意機構について述べる。
提案するTJA-SNNフレームワークは,空間次元と時間次元の両方からスパイクシーケンスの意義を効果的に評価することができる。
論文 参考訳(メタデータ) (2022-06-21T08:16:08Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Spiking Neural Networks for Visual Place Recognition via Weighted
Neuronal Assignments [24.754429120321365]
スパイキングニューラルネットワーク(SNN)は、エネルギー効率と低レイテンシを含む、魅力的な潜在的な利点を提供する。
高性能SNNにとって有望な領域の1つは、テンプレートマッチングと画像認識である。
本研究では,視覚的位置認識(VPR)タスクのための最初の高性能SNNを紹介する。
論文 参考訳(メタデータ) (2021-09-14T05:40:40Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。