Fugu-MT 論文翻訳(概要): Spiking Wavelet Transformer

論文の概要: Spiking Wavelet Transformer

arxiv url: http://arxiv.org/abs/2403.11138v5
Date: Wed, 4 Sep 2024 08:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 03:32:19.013465
Title: Spiking Wavelet Transformer
Title（参考訳）: スパイキングウェーブレットトランス
Authors: Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu,
Abstract要約: スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。 SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
参考スコア（独自算出の注目度）: 1.8712213089437697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by emulating the event-driven processing manner of the brain. Incorporating Transformers with SNNs has shown promise for accuracy. However, they struggle to learn high-frequency patterns, such as moving edges and pixel-level brightness changes, because they rely on the global self-attention mechanism. Learning these high-frequency representations is challenging but essential for SNN-based event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation - with negative spike dynamics incorporated in 1) to enhance frequency representation. The FATM enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free and event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves a 22.03% reduction in parameter count, and a 2.52% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers. The code is available at: https://github.com/bic-L/Spiking-Wavelet-Transformer.
Abstract（参考訳）: スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理方法をエミュレートすることによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。 SNNでトランスフォーマーを組み込むと、精度が保証される。しかし、彼らは、グローバルな自己認識機構に依存するため、移動エッジやピクセルレベルの明るさ変化などの高周波パターンを学ぶのに苦労している。これらの高周波表現の学習は、SNNベースのイベント駆動ビジョンには難しいが不可欠である。この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。 1)空間周波数領域学習のためのスパイクウェーブレット学習装置 2)空間特徴抽出のための畳み込みに基づく学習者 3) チャネル間情報集約のためのスパイクポイントワイド畳み込み -負スパイクダイナミクスを組み込んだもの 1) 周波数表現を高める。 FATMにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分を捕捉するバニラスパイキングトランスフォーマーよりも優れている。静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。 SWformerはパラメータカウントを22.03%削減し、Vanilla Spiking Transformerと比較して、ImageNetデータセットのパフォーマンスが2.52%向上した。コードは、https://github.com/bic-L/Spiking-Wavelet-Transformerで入手できる。

関連論文リスト

FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文参考訳（メタデータ） (2024-07-18T04:36:10Z)
Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning [30.51005522218133]
音声・視覚ゼロショット学習のための新しいSTFT(Spking Tucker Fusion Transformer)を提案する。 STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。本稿では,最大と平均のプール操作を組み合わせたグローバルローカルプール(GLP)を提案する。
論文参考訳（メタデータ） (2024-07-11T02:01:26Z)
Attention-free Spikformer: Mixing Spike Sequences with Simple Linear Transforms [16.54314950692779]
SpikformerはSNNの自己注意能力と生物学的特性を統合する Spiking Self-Attention (SSA)モジュールを導入し、スパイクフォームクエリ、キー、バリューを使ってスパースなビジュアル機能をミックスする。我々はニューロモルフィックデータセットと静的データセットの両方を用いて画像分類に関する広範な実験を行った。
論文参考訳（メタデータ） (2023-08-02T11:41:54Z)
WavSpA: Wavelet Space Attention for Boosting Transformers' Long Sequence Learning Ability [31.791279777902957]
近年の研究では、フーリエ空間における学習の注意がトランスフォーマーの長いシーケンス学習能力を向上させることが示されている。ウェーブレット変換は、位置情報と周波数情報の両方を線形時間複雑度でキャプチャするので、よりよい選択であるべきだと我々は主張する。学習可能なウェーブレット係数空間における注意学習を容易にするウェーブレット空間注意(WavSpA)を提案する。
論文参考訳（メタデータ） (2022-10-05T02:37:59Z)
Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文参考訳（メタデータ） (2022-08-18T13:46:12Z)
Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文参考訳（メタデータ） (2022-07-11T16:03:51Z)
Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (2022-05-25T17:59:54Z)
Trainable Wavelet Neural Network for Non-Stationary Signals [0.0]
本研究は,非定常信号に適合するフィルタバンクを学習するためのウェーブレットニューラルネットワークを導入し,デジタル信号処理の解釈性と性能を向上させる。このネットワークは、複雑なモレットウェーブレットのパラメータ化関数である畳み込みがニューラルネットワークの第1層としてウェーブレット変換を使用する。
論文参考訳（メタデータ） (2022-05-06T16:41:27Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)
Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。 VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文参考訳（メタデータ） (2020-05-07T09:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。