論文の概要: Fourier or Wavelet bases as counterpart self-attention in spikformer for efficient visual classification
- arxiv url: http://arxiv.org/abs/2403.18228v1
- Date: Wed, 27 Mar 2024 03:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:26:17.635049
- Title: Fourier or Wavelet bases as counterpart self-attention in spikformer for efficient visual classification
- Title(参考訳): 効率的な視覚分類のためのスパイクフォーマにおける相反する自己注意としてのフーリエベースまたはウェーブレットベース
- Authors: Qingyu Wang, Duzhen Zhang, Tilelin Zhang, Bo Xu,
- Abstract要約: 生体可塑性スパイキングニューラルネットワーク(SNN)と人工トランスフォーマーを組み合わせたエネルギー効率の高いスパイクフォーマーが提案されている。
本稿では,バニラSSAをスパイク形式のフーリエ変換,ウェーブレット変換,およびそれらの組み合わせに置き換える。
FWformerは、同等またはそれ以上のアキュラシー(0.4%$-1.5%$)、より高いランニングスピード(9%$-51%$)、推論のために19%$-70%$を達成することができる。
- 参考スコア(独自算出の注目度): 9.312432667108691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Energy-efficient spikformer has been proposed by integrating the biologically plausible spiking neural network (SNN) and artificial Transformer, whereby the Spiking Self-Attention (SSA) is used to achieve both higher accuracy and lower computational cost. However, it seems that self-attention is not always necessary, especially in sparse spike-form calculation manners. In this paper, we innovatively replace vanilla SSA (using dynamic bases calculating from Query and Key) with spike-form Fourier Transform, Wavelet Transform, and their combinations (using fixed triangular or wavelets bases), based on a key hypothesis that both of them use a set of basis functions for information transformation. Hence, the Fourier-or-Wavelet-based spikformer (FWformer) is proposed and verified in visual classification tasks, including both static image and event-based video datasets. The FWformer can achieve comparable or even higher accuracies ($0.4\%$-$1.5\%$), higher running speed ($9\%$-$51\%$ for training and $19\%$-$70\%$ for inference), reduced theoretical energy consumption ($20\%$-$25\%$), and reduced GPU memory usage ($4\%$-$26\%$), compared to the standard spikformer. Our result indicates the continuous refinement of new Transformers, that are inspired either by biological discovery (spike-form), or information theory (Fourier or Wavelet Transform), is promising.
- Abstract(参考訳): エネルギー効率のよいスパイクフォーマは、生物学的に可塑性スパイクニューラルネットワーク(SNN)と人工トランスフォーマーを統合して提案されており、スパイキング自己認識(SSA)は高い精度と低い計算コストを達成するために用いられる。
しかし、特にスパーススパイク形式の計算方法において、自己注意は必ずしも必要ではないようである。
本稿では,バニラSSAをスパイク形式フーリエ変換,ウェーブレット変換,およびそれらの組み合わせ(固定三角形あるいはウェーブレット基底を用いる)に置き換える。
そこで、FWformer(Fourier-or-Wavelet-based spikformer)が提案され、静的画像とイベントベースのビデオデータセットを含む視覚的分類タスクで検証される。
FWformerは、同等またはそれ以上のアキュラシー(0.4\%$-$1.5\%$)、より高いランニングスピード(9\%$-$51\%$)、推論のための19\%$-$70\%$)、理論エネルギー消費(20\%$-$25\%$)、GPUメモリ使用量(4\%$-$26\%$)を達成することができる。
その結果,生物発見(スパイク・フォーム)や情報理論(フーリエ・ウェーブレット・トランスフォーム)に触発された新しいトランスフォーマーの継続的な改良が期待できることを示す。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Spiking Wavelet Transformer [1.8712213089437697]
スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。
本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
論文 参考訳(メタデータ) (2024-03-17T08:41:48Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Attention-free Spikformer: Mixing Spike Sequences with Simple Linear
Transforms [16.54314950692779]
SpikformerはSNNの自己注意能力と生物学的特性を統合する
Spiking Self-Attention (SSA)モジュールを導入し、スパイクフォームクエリ、キー、バリューを使ってスパースなビジュアル機能をミックスする。
我々はニューロモルフィックデータセットと静的データセットの両方を用いて画像分類に関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-02T11:41:54Z) - Spike-driven Transformer [31.931401322707995]
スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動(スパイク駆動)パラダイムにより、エネルギー効率のよいディープラーニングオプションを提供する。
本稿では,4つの特性を持つスパイク駆動トランスフォーマーにより,スパイク駆動のパラダイムをTransformerに組み込む。
Spike駆動トランスフォーマーはImageNet-1K上で77.1%のTop-1精度を達成でき、これはSNNフィールドにおける最先端の結果である。
論文 参考訳(メタデータ) (2023-07-04T13:00:18Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。