論文の概要: MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion
- arxiv url: http://arxiv.org/abs/2505.14719v1
- Date: Mon, 19 May 2025 14:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.649685
- Title: MSVIT: Improving Spiking Vision Transformer Using Multi-scale Attention Fusion
- Title(参考訳): MSVIT:マルチスケールアテンション融合によるスパイキングビジョントランスの改良
- Authors: Wei Hua, Chenlin Zhou, Jibin Wu, Yansong Chua, Yangyang Shu,
- Abstract要約: 本稿では,マルチスケール・スパイキング・アテンション(MSSA)を用いた新しいスパイク駆動トランスフォーマーアーキテクチャMSVITを提案する。
実験の結果,MSVITは既存のSNNモデルよりも優れており,SNN変換器アーキテクチャの最先端ソリューションとして位置づけられている。
- 参考スコア(独自算出の注目度): 10.715931690834127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of Spiking Neural Networks(SNNs) with Vision Transformer architectures has attracted significant attention due to the great potential for energy-efficient and high-performance computing paradigms. However, a substantial performance gap still exists between SNN-based and ANN-based transformer architectures. While existing methods propose spiking self-attention mechanisms that are successfully combined with SNNs, the overall architectures proposed by these methods suffer from a bottleneck in effectively extracting features from different image scales. In this paper, we address this issue and propose MSVIT, a novel spike-driven Transformer architecture, which firstly uses multi-scale spiking attention (MSSA) to enrich the capability of spiking attention blocks. We validate our approach across various main data sets. The experimental results show that MSVIT outperforms existing SNN-based models, positioning itself as a state-of-the-art solution among SNN-transformer architectures. The codes are available at https://github.com/Nanhu-AI-Lab/MSViT.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)とビジョントランスフォーマーアーキテクチャの組み合わせは、エネルギー効率と高性能コンピューティングパラダイムの大きな可能性のために大きな注目を集めている。
しかし、SNNベースのトランスフォーマーアーキテクチャとANNベースのトランスフォーマーアーキテクチャの間には、大きなパフォーマンスギャップがある。
既存の手法ではSNNとうまく組み合わせられる自己認識機構が提案されているが、これらの手法によって提案される全体的なアーキテクチャは、画像スケールの異なる特徴を効果的に抽出する際のボトルネックに悩まされている。
本稿では,この課題に対処し,マルチスケール・スパイキング・アテンション(MSSA)を用いたスパイク駆動型トランスフォーマーアーキテクチャであるMSVITを提案する。
さまざまな主要なデータセットにまたがるアプローチを検証する。
実験の結果,MSVITは既存のSNNモデルよりも優れており,SNN変換器アーキテクチャの最先端ソリューションとして位置づけられている。
コードはhttps://github.com/Nanhu-AI-Lab/MSViT.comで公開されている。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery [7.839253919389809]
視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。
HSI分類に適した統合階層型スペクトルビジョン変換器アーキテクチャについて検討した。
視覚変換器の独特な強さは、その網羅的なアーキテクチャに起因すると結論付けている。
論文 参考訳(メタデータ) (2024-09-14T00:53:13Z) - SpikingResformer: Bridging ResNet and Vision Transformer in Spiking Neural Networks [22.665939536001797]
そこで本研究では,DSSA(Dual Spike Self-Attention)という新たな自己注意機構を提案する。
本稿では,DSSAに基づく新しいスパイキングビジョントランスフォーマーアーキテクチャであるSpikeResformerを提案する。
SpikingResformerは、他のスパイキングビジョン変換器よりも少ないパラメータと少ないエネルギー消費で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-03-21T11:16:42Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。