論文の概要: SpikePool: Event-driven Spiking Transformer with Pooling Attention
- arxiv url: http://arxiv.org/abs/2510.12102v1
- Date: Tue, 14 Oct 2025 03:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.169136
- Title: SpikePool: Event-driven Spiking Transformer with Pooling Attention
- Title(参考訳): SpikePool: イベント駆動型スパイクトランス
- Authors: Donghyun Lee, Alex Sima, Yuhang Li, Panos Stinis, Priyadarshini Panda,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、トランスフォーマーアーキテクチャとますます統合されている。
現在のアプローチは主に、基礎となる信号処理特性を解析せずにアーキテクチャの変更に焦点を当てている。
我々は周波数スペクトル領域を通してスパイキングトランスを解析し、ハイパスフィルタとして振る舞うことを発見した。
スパイクベースの自己アテンションを最大プールアテンションに置き換えたSpikePoolを提案する。
- 参考スコア(独自算出の注目度): 17.15887489143204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building on the success of transformers, Spiking Neural Networks (SNNs) have increasingly been integrated with transformer architectures, leading to spiking transformers that demonstrate promising performance on event-based vision tasks. However, despite these empirical successes, there remains limited understanding of how spiking transformers fundamentally process event-based data. Current approaches primarily focus on architectural modifications without analyzing the underlying signal processing characteristics. In this work, we analyze spiking transformers through the frequency spectrum domain and discover that they behave as high-pass filters, contrasting with Vision Transformers (ViTs) that act as low-pass filters. This frequency domain analysis reveals why certain designs work well for event-based data, which contains valuable high-frequency information but is also sparse and noisy. Based on this observation, we propose SpikePool, which replaces spike-based self-attention with max pooling attention, a low-pass filtering operation, to create a selective band-pass filtering effect. This design preserves meaningful high-frequency content while capturing critical features and suppressing noise, achieving a better balance for event-based data processing. Our approach demonstrates competitive results on event-based datasets for both classification and object detection tasks while significantly reducing training and inference time by up to 42.5% and 32.8%, respectively.
- Abstract(参考訳): トランスフォーマーの成功に基づいて、スパイキングニューラルネットワーク(SNN)は、ますますトランスフォーマーアーキテクチャと統合され、イベントベースのビジョンタスクで有望なパフォーマンスを示すスパイキングトランスフォーマーにつながっている。
しかしながら、これらの経験的な成功にもかかわらず、トランスフォーマーのスパイクがイベントベースのデータを根本的に処理する方法についての理解は限られている。
現在のアプローチは主に、基礎となる信号処理特性を解析せずにアーキテクチャの変更に焦点を当てている。
本研究では、周波数スペクトル領域を通してスパイキングトランスフォーマーを解析し、低域フィルタとして機能するビジョントランス(ViT)と対比して、ハイパスフィルタとして振る舞うことを発見する。
この周波数領域分析は、ある設計が貴重な高周波情報を含むイベントベースデータに対してうまく機能する理由を明らかにしている。
そこで本研究では,スパイクに基づく自己注意を最大プールアテンションに置き換えたSpikePoolを提案する。
この設計は、重要な特徴を捉え、ノイズを抑えながら有意義な高周波コンテンツを保存し、イベントベースのデータ処理のバランスを改善する。
提案手法では,分類タスクとオブジェクト検出タスクの両方を対象としたイベントベースデータセットの競合結果を示すとともに,トレーニング時間と推論時間をそれぞれ42.5%,32.8%まで大幅に短縮する。
関連論文リスト
- Frequency-Dynamic Attention Modulation for Dense Prediction [14.066404173580864]
我々は、周波数ダイナミックアテンション変調(FDAM)と呼ばれる回路理論にインスパイアされた戦略を提案する。
FDAMは視覚変換器(ViT)の総周波数応答を直接調節する
論文 参考訳(メタデータ) (2025-07-16T07:59:54Z) - Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation in Surgical and Deep-Sea Exploration Robots [34.28684917337352]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Spiking Wavelet Transformer [1.8712213089437697]
スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。
本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
論文 参考訳(メタデータ) (2024-03-17T08:41:48Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。