論文の概要: QKFormer: Hierarchical Spiking Transformer using Q-K Attention
- arxiv url: http://arxiv.org/abs/2403.16552v2
- Date: Tue, 08 Oct 2024 09:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:45.621023
- Title: QKFormer: Hierarchical Spiking Transformer using Q-K Attention
- Title(参考訳): QKFormer: Q-Kアテンションを用いた階層スパイキングトランス
- Authors: Chenlin Zhou, Han Zhang, Zhaokun Zhou, Liutao Yu, Liwei Huang, Xiaopeng Fan, Li Yuan, Zhengyu Ma, Huihui Zhou, Yonghong Tian,
- Abstract要約: スパイキングトランスフォーマーは、スパイキングニューラルネットワーク(SNN)とトランスフォーマーアーキテクチャを統合する。
既存のモデルの性能を改善するために、いくつかの革新を紹介します。
直接学習によるQ-K注意に基づく階層型スパイキングトランスであるQKFormerを開発した。
- 参考スコア(独自算出の注目度): 39.55446999753786
- License:
- Abstract: Spiking Transformers, which integrate Spiking Neural Networks (SNNs) with Transformer architectures, have attracted significant attention due to their potential for energy efficiency and high performance. However, existing models in this domain still suffer from suboptimal performance. We introduce several innovations to improve the performance: i) We propose a novel spike-form Q-K attention mechanism, tailored for SNNs, which efficiently models the importance of token or channel dimensions through binary vectors with linear complexity. ii) We incorporate the hierarchical structure, which significantly benefits the performance of both the brain and artificial neural networks, into spiking transformers to obtain multi-scale spiking representation. iii) We design a versatile and powerful patch embedding module with a deformed shortcut specifically for spiking transformers. Together, we develop QKFormer, a hierarchical spiking transformer based on Q-K attention with direct training. QKFormer shows significantly superior performance over existing state-of-the-art SNN models on various mainstream datasets. Notably, with comparable size to Spikformer (66.34 M, 74.81%), QKFormer (64.96 M) achieves a groundbreaking top-1 accuracy of 85.65% on ImageNet-1k, substantially outperforming Spikformer by 10.84%. To our best knowledge, this is the first time that directly training SNNs have exceeded 85% accuracy on ImageNet-1K. The code and models are publicly available at https://github.com/zhouchenlin2096/QKFormer
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)とトランスフォーマーアーキテクチャを統合するスパイキングトランスフォーマーは、エネルギー効率と高性能の可能性を秘めている。
しかし、この領域の既存のモデルは、依然として準最適性能に悩まされている。
パフォーマンスを改善するために、いくつかのイノベーションを紹介します。
i) SNNに適した新しいスパイク形式Q-Kアテンション機構を提案し, 線形複雑度を持つ二進ベクトルによるトークンやチャネル次元の重要性を効率的にモデル化する。
ii)脳と人工神経の双方のパフォーマンスに大きく貢献する階層構造をスパイキングトランスフォーマーに組み込んで,マルチスケールのスパイキング表現を得る。
三 変圧器をスパイクするための変形ショートカットを備えた多用途で強力なパッチ埋め込みモジュールを設計する。
直接学習によるQ-K注意に基づく階層型スパイキングトランスであるQKFormerを開発した。
QKFormerは、さまざまな主流データセット上の既存の最先端SNNモデルよりも、はるかに優れたパフォーマンスを示している。
注目すべきは、Spykformer (66.34 M, 74.81%) に匹敵するサイズで、QKFormer (64.96 M) はImageNet-1kで85.65%の画期的なトップ-1の精度を達成し、Spykformerを10.84%上回ったことである。
われわれの知る限り、ImageNet-1KでSNNを直接訓練するのはこれが初めてだ。
コードとモデルはhttps://github.com/zhouchenlin2096/QKFormerで公開されている。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Spike-driven Transformer V2: Meta Spiking Neural Network Architecture Inspiring the Design of Next-generation Neuromorphic Chips [37.305308839310136]
ニューロモルフィックコンピューティングは、ニューロモルフィックチップ上でスパイキングニューラルネットワーク(SNN)を利用する。
CNNベースのSNNは、現在のニューロモルフィックコンピューティングの主流である。
特にトランスフォーマーベースのSNN向けには、ニューロモルフィックチップは設計されていない。
論文 参考訳(メタデータ) (2024-02-15T13:26:18Z) - SparseSpikformer: A Co-Design Framework for Token and Weight Pruning in
Spiking Transformer [12.717450255837178]
スパイキングニューラルネットワーク(SNN)は低消費電力と高エネルギー効率の利点がある。
最も先進的なSNNであるSpikformerは、Transformerの自己保持モジュールとSNNを組み合わせて、優れたパフォーマンスを実現している。
本稿では,SparseSpikformerについて紹介する。SparseSpikformerはトークンとウェイトプルーニング技術を用いてSparseSpikformerのスパーシ性を実現するための共同設計フレームワークである。
論文 参考訳(メタデータ) (2023-11-15T09:22:52Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - Spikingformer: Spike-driven Residual Learning for Transformer-based
Spiking Neural Network [19.932683405796126]
スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワークに代わる有望なエネルギー効率の代替手段を提供する。
SNNは、残余接続の構造によって引き起こされる非スパイク計算に悩まされる。
我々は、純粋なトランスをベースとしたスパイクニューラルネットワークであるSpkingformerを開発した。
論文 参考訳(メタデータ) (2023-04-24T09:44:24Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。