論文の概要: Spiking Wavelet Transformer
- arxiv url: http://arxiv.org/abs/2403.11138v2
- Date: Fri, 22 Mar 2024 05:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 21:31:40.969787
- Title: Spiking Wavelet Transformer
- Title(参考訳): スパイキングウェーブレットトランス
- Authors: Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理を模倣することによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
グローバルな自己注意操作に依存しているため、移動エッジや画素レベルの明るさ変化のような高周波パターンを捉えることは不可能である。
本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
- 参考スコア(独自算出の注目度): 1.8712213089437697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by mimicking the event-driven processing of the brain. Incorporating the Transformers with SNNs has shown promise for accuracy, yet it is incompetent to capture high-frequency patterns like moving edge and pixel-level brightness changes due to their reliance on global self-attention operations. Porting frequency representations in SNN is challenging yet crucial for event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation. We also adopt negative spike dynamics to strengthen the frequency representation further. This enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free, event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves an over 50% reduction in energy consumption, a 21.1% reduction in parameter count, and a 2.40% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理を模倣することによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
トランスフォーマーをSNNに組み込むことは正確性を示しているが、グローバルな自己注意操作に依存しているため、移動エッジや画素レベルの明るさ変化などの高周波パターンをキャプチャすることは不可能である。
SNNにおける周波数表現の移植は、イベント駆動型ビジョンでは難しいが、不可欠である。
この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。
重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。
1)空間周波数領域学習のためのスパイクウェーブレット学習装置
2)空間特徴抽出のための畳み込みに基づく学習者
3) チャネル間情報集約のためのポイントワイド・コンボリューションをスパイクする。
また、周波数表現をさらに強化するために、負のスパイクダイナミクスを採用する。
これにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分をキャプチャするバニラスパイキングトランスフォーマーよりも優れている。
静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。
SWformerは、エネルギー消費の50%以上削減、パラメータ数21.1%削減、ImageNetデータセットのパフォーマンス改善を実現している。
関連論文リスト
- Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning [30.51005522218133]
音声・視覚ゼロショット学習のための新しいSTFT(Spking Tucker Fusion Transformer)を提案する。
STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。
本稿では,最大と平均のプール操作を組み合わせたグローバルローカルプール(GLP)を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:01:26Z) - Attention-free Spikformer: Mixing Spike Sequences with Simple Linear
Transforms [16.54314950692779]
SpikformerはSNNの自己注意能力と生物学的特性を統合する
Spiking Self-Attention (SSA)モジュールを導入し、スパイクフォームクエリ、キー、バリューを使ってスパースなビジュアル機能をミックスする。
我々はニューロモルフィックデータセットと静的データセットの両方を用いて画像分類に関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-02T11:41:54Z) - WavSpA: Wavelet Space Attention for Boosting Transformers' Long Sequence
Learning Ability [31.791279777902957]
近年の研究では、フーリエ空間における学習の注意がトランスフォーマーの長いシーケンス学習能力を向上させることが示されている。
ウェーブレット変換は、位置情報と周波数情報の両方を線形時間複雑度でキャプチャするので、よりよい選択であるべきだと我々は主張する。
学習可能なウェーブレット係数空間における注意学習を容易にするウェーブレット空間注意(WavSpA)を提案する。
論文 参考訳(メタデータ) (2022-10-05T02:37:59Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Trainable Wavelet Neural Network for Non-Stationary Signals [0.0]
本研究は,非定常信号に適合するフィルタバンクを学習するためのウェーブレットニューラルネットワークを導入し,デジタル信号処理の解釈性と性能を向上させる。
このネットワークは、複雑なモレットウェーブレットのパラメータ化関数である畳み込みがニューラルネットワークの第1層としてウェーブレット変換を使用する。
論文 参考訳(メタデータ) (2022-05-06T16:41:27Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。
VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文 参考訳(メタデータ) (2020-05-07T09:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。