論文の概要: DS2TA: Denoising Spiking Transformer with Attenuated Spatiotemporal Attention
- arxiv url: http://arxiv.org/abs/2409.15375v1
- Date: Fri, 20 Sep 2024 02:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:20:55.029522
- Title: DS2TA: Denoising Spiking Transformer with Attenuated Spatiotemporal Attention
- Title(参考訳): DS2TA:時空間アテンションを減衰したスパイキング変圧器
- Authors: Boxun Xu, Hejia Geng, Yuxuan Yin, Peng Li,
- Abstract要約: 本稿では,視覚応用のための時間的注意を減らしたデノイングスパイキング変換器DS2 DSTAを紹介する。
いくつかの広く採用されている静的画像と動的ニューロモルフィックデータセットの最先端性能を示す。
DS2TAはCIFAR10で94.92%、CIFAR100で77.47%、CIFAR10-DVSとDVS-Gestureで79.1%、94.44%を達成している。
- 参考スコア(独自算出の注目度): 3.440313042843115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViT) are current high-performance models of choice for various vision applications. Recent developments have given rise to biologically inspired spiking transformers that thrive in ultra-low power operations on neuromorphic hardware, however, without fully unlocking the potential of spiking neural networks. We introduce DS2TA, a Denoising Spiking transformer with attenuated SpatioTemporal Attention, designed specifically for vision applications. DS2TA introduces a new spiking attenuated spatiotemporal attention mechanism that considers input firing correlations occurring in both time and space, thereby fully harnessing the computational power of spiking neurons at the core of the transformer architecture. Importantly, DS2TA facilitates parameter-efficient spatiotemporal attention computation without introducing extra weights. DS2TA employs efficient hashmap-based nonlinear spiking attention denoisers to enhance the robustness and expressive power of spiking attention maps. DS2TA demonstrates state-of-the-art performances on several widely adopted static image and dynamic neuromorphic datasets. Operated over 4 time steps, DS2TA achieves 94.92% top-1 accuracy on CIFAR10 and 77.47% top-1 accuracy on CIFAR100, as well as 79.1% and 94.44% on CIFAR10-DVS and DVS-Gesture using 10 time steps.
- Abstract(参考訳): 視覚変換器 (ViT) は、様々な視覚アプリケーションにおいて現在選択されている高性能モデルである。
近年の進歩は、スパイクニューラルネットワークの可能性を完全に解き放つことなく、ニューロモルフィックハードウェアの超低消費電力動作で成長する生物学的にインスパイアされたスパイクトランスフォーマーを生み出している。
本稿では,視覚アプリケーション専用に設計された時空間アテンションを減衰させたデノイング・スパイキング・トランスフォーマーDS2TAを紹介する。
DS2TAは、時間と空間の両方で発生する入力の発火相関を考慮し、トランスアーキテクチャのコアにおけるスパイキングニューロンの計算能力を完全に活用する、新しいスパイキング減衰時空間注意機構を導入している。
重要なことに、DS2TAは余分な重みを導入することなくパラメータ効率の良い時空間アテンション計算を容易にする。
DS2TAは、効率的なハッシュマップベースの非線形スパイクアテンションデノイザを用いて、スパイキングアテンションマップの堅牢性と表現力を高める。
DS2TAは、広く採用されている静的画像と動的ニューロモルフィックデータセットの最先端性能を示す。
CIFAR100では94.92%、CIFAR100では77.47%、CIFAR10-DVSでは79.1%、DVS-Gestureでは94.44%である。
関連論文リスト
- LASER: Attention with Exponential Transformation [20.1832156343096]
注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。
我々は、より大きな勾配信号を受け入れることを解析的に示すLASERと呼ばれる新しい注意機構を導入する。
既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることを示す。
論文 参考訳(メタデータ) (2024-11-05T20:18:28Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Low-power event-based face detection with asynchronous neuromorphic
hardware [2.0774873363739985]
本稿では、SynSense Speckニューロモルフィックチップ上に展開されたイベントベースの顔検出のためのオンチップスパイクニューラルネットワークの最初の例を示す。
トレーニングに用いるオフチップクロック駆動シミュレーションとオンチップイベント駆動推論との精度の相違について述べる。
オンチップ顔検出のmAP[0.5]は0.6で、20mWしか消費しない。
論文 参考訳(メタデータ) (2023-12-21T19:23:02Z) - DISTA: Denoising Spiking Transformer with intrinsic plasticity and
spatiotemporal attention [3.758294848902233]
固有塑性とテンポラルアテンションを有するデノナイジングスパイキングトランスであるdisTAについて紹介する。
ニューロンの計算能力の最大化、特に視覚応用のために設計されている。
DISTAは、わずか6つの時間ステップで、いくつかの静的画像およびダイナミックモーフィックデータセットにおいて、顕著なトップ1の精度を達成する。
論文 参考訳(メタデータ) (2023-11-15T21:09:08Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - DADFNet: Dual Attention and Dual Frequency-Guided Dehazing Network for
Video-Empowered Intelligent Transportation [79.18450119567315]
逆の気象条件は、ビデオベースの交通監視に深刻な課題をもたらす。
本稿では,リアルタイム視認性向上のための2つの注意と2つの周波数誘導型脱ハージングネットワーク(DADFNet)を提案する。
論文 参考訳(メタデータ) (2023-04-19T11:55:30Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - SOUL: An Energy-Efficient Unsupervised Online Learning Seizure Detection
Classifier [68.8204255655161]
神経活動を記録して発作を検出するインプラントデバイスは、発作を抑えるために警告を発したり神経刺激を誘発したりするために採用されている。
移植可能な発作検出システムでは、低出力で最先端のオンライン学習アルゴリズムを使用して、神経信号のドリフトに動的に適応することができる。
SOULはTSMCの28nmプロセスで0.1mm2を占め、1.5nJ/分級エネルギー効率を実現した。
論文 参考訳(メタデータ) (2021-10-01T23:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。