論文の概要: SpiLiFormer: Enhancing Spiking Transformers with Lateral Inhibition
- arxiv url: http://arxiv.org/abs/2503.15986v1
- Date: Thu, 20 Mar 2025 09:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:02.353266
- Title: SpiLiFormer: Enhancing Spiking Transformers with Lateral Inhibition
- Title(参考訳): SpiLiFormer: 横方向抑制によるスパイキングトランスフォーマーの強化
- Authors: Zeqi Zheng, Yanchen Huang, Yingchao Yu, Zizheng Zhu, Junfeng Tang, Zhaofei Yu, Yaochu Jin,
- Abstract要約: トランスフォーマーに基づくスパイクニューラルネットワーク(SNN)は、優れた性能と高エネルギー効率のために大きな注目を集めている。
横型抑制インスピレーションスパイキングトランス(SpiLiFormer)を提案する。
これは、脳の側方抑制機構をエミュレートし、無関係なトークンへの注意を抑えながら、関連するトークンへの注意を高めるようモデルに誘導する。
- 参考スコア(独自算出の注目度): 29.724968607408048
- License:
- Abstract: Spiking Neural Networks (SNNs) based on Transformers have garnered significant attention due to their superior performance and high energy efficiency. However, the spiking attention modules of most existing Transformer-based SNNs are adapted from those of analog Transformers, failing to fully address the issue of over-allocating attention to irrelevant contexts. To fix this fundamental yet overlooked issue, we propose a Lateral Inhibition-inspired Spiking Transformer (SpiLiFormer). It emulates the brain's lateral inhibition mechanism, guiding the model to enhance attention to relevant tokens while suppressing attention to irrelevant ones. Our model achieves state-of-the-art (SOTA) performance across multiple datasets, including CIFAR-10 (+0.45%), CIFAR-100 (+0.48%), CIFAR10-DVS (+2.70%), N-Caltech101 (+1.94%), and ImageNet-1K (+1.6%). Notably, on the ImageNet-1K dataset, SpiLiFormer (69.9M parameters, 4 time steps, 384 resolution) outperforms E-SpikeFormer (173.0M parameters, 8 time steps, 384 resolution), a SOTA spiking Transformer, by 0.46% using only 39% of the parameters and half the time steps. Our code and training checkpoints will be released upon acceptance.
- Abstract(参考訳): トランスフォーマーに基づくスパイクニューラルネットワーク(SNN)は、優れた性能と高エネルギー効率のために大きな注目を集めている。
しかし、既存のトランスフォーマーベースのSNNのスパイクアテンションモジュールはアナログトランスフォーマーのモジュールに適応しており、無関係なコンテキストに過度に注意を集中するという問題を完全に解決することができない。
本稿では,この根本的かつ見落とされがちな問題を解決するために,横型インヒビションインスパイアスパイキングトランス (SpiLiFormer) を提案する。
これは、脳の側方抑制機構をエミュレートし、無関係なトークンへの注意を抑えながら、関連するトークンへの注意を高めるようモデルに誘導する。
我々のモデルは、CIFAR-10(+0.45%)、CIFAR-100(+0.48%)、CIFAR10-DVS(+2.70%)、N-Caltech101(+1.94%)、ImageNet-1K(+1.6%)など、複数のデータセットにわたる最先端(SOTA)のパフォーマンスを実現している。
ImageNet-1Kデータセットでは、SpikeFormer(69.9Mパラメータ、4時間ステップ、384解像度)がE-SpikeFormer(173.0Mパラメータ、8時間ステップ、384解像度)、SOTAスパイキングトランスフォーマーを0.46%上回り、39%のパラメータと半分のタイムステップしか使用していない。
私たちのコードとトレーニングチェックポイントは受け入れ次第リリースします。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - QKFormer: Hierarchical Spiking Transformer using Q-K Attention [39.55446999753786]
スパイキングトランスフォーマーは、スパイキングニューラルネットワーク(SNN)とトランスフォーマーアーキテクチャを統合する。
既存のモデルの性能を改善するために、いくつかの革新を紹介します。
直接学習によるQ-K注意に基づく階層型スパイキングトランスであるQKFormerを開発した。
論文 参考訳(メタデータ) (2024-03-25T08:57:27Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Fcaformer: Forward Cross Attention in Hybrid Vision Transformer [29.09883780571206]
ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
論文 参考訳(メタデータ) (2022-11-14T08:43:44Z) - SaiT: Sparse Vision Transformers through Adaptive Token Pruning [5.1477382898520485]
スパース適応画像変換器(SaiT)は、ハエのトークン間隔を単に変更するだけで、モデルアクセラレーションの様々なレベルを提供する。
SaiTは複雑性(FLOP)を39%から43%削減し、スループットを67%から91%向上させる。
論文 参考訳(メタデータ) (2022-10-11T23:26:42Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。