論文の概要: Spike-driven Transformer
- arxiv url: http://arxiv.org/abs/2307.01694v1
- Date: Tue, 4 Jul 2023 13:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 17:10:57.866749
- Title: Spike-driven Transformer
- Title(参考訳): スパイク駆動変圧器
- Authors: Man Yao, Jiakui Hu, Zhaokun Zhou, Li Yuan, Yonghong Tian, Bo Xu, Guoqi
Li
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動(スパイク駆動)パラダイムにより、エネルギー効率のよいディープラーニングオプションを提供する。
本稿では,4つの特性を持つスパイク駆動トランスフォーマーにより,スパイク駆動のパラダイムをTransformerに組み込む。
Spike駆動トランスフォーマーはImageNet-1K上で77.1%のTop-1精度を達成でき、これはSNNフィールドにおける最先端の結果である。
- 参考スコア(独自算出の注目度): 31.931401322707995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Neural Networks (SNNs) provide an energy-efficient deep learning
option due to their unique spike-based event-driven (i.e., spike-driven)
paradigm. In this paper, we incorporate the spike-driven paradigm into
Transformer by the proposed Spike-driven Transformer with four unique
properties: 1) Event-driven, no calculation is triggered when the input of
Transformer is zero; 2) Binary spike communication, all matrix multiplications
associated with the spike matrix can be transformed into sparse additions; 3)
Self-attention with linear complexity at both token and channel dimensions; 4)
The operations between spike-form Query, Key, and Value are mask and addition.
Together, there are only sparse addition operations in the Spike-driven
Transformer. To this end, we design a novel Spike-Driven Self-Attention (SDSA),
which exploits only mask and addition operations without any multiplication,
and thus having up to $87.2\times$ lower computation energy than vanilla
self-attention. Especially in SDSA, the matrix multiplication between Query,
Key, and Value is designed as the mask operation. In addition, we rearrange all
residual connections in the vanilla Transformer before the activation functions
to ensure that all neurons transmit binary spike signals. It is shown that the
Spike-driven Transformer can achieve 77.1\% top-1 accuracy on ImageNet-1K,
which is the state-of-the-art result in the SNN field. The source code is
available at https://github.com/BICLab/Spike-Driven-Transformer.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動(スパイク駆動)パラダイムにより、エネルギー効率のよいディープラーニングオプションを提供する。
本稿では、スパイク駆動のパラダイムを4つの特性を持つスパイク駆動トランスフォーマーによりTransformerに組み込む。
1) Transformer の入力が 0 の場合,イベント駆動の計算は行われない。
2) 二重スパイク通信, スパイク行列に関連するすべての行列乗算は, スパース加算に変換することができる。
3) トークン次元及びチャネル次元における線形複雑性を伴う自己注意
4) スパイク形式のクエリ、キー、値の間の操作はマスクと付加です。
同時に、スパイク駆動トランスフォーマーにはスパース追加操作のみが存在する。
この目的のために我々は,マスクと加算操作のみを乗算なしで利用し,バニラ自己認識よりも計算エネルギーが最大87.2\times$低い新しいSDSA(Spike-Driven Self-Attention)を設計した。
特にsdsaでは、クエリー、キー、値の間の行列乗算がマスク演算として設計されている。
さらに、活性化機能の前にバニラトランスの残余接続をすべて再構成し、すべてのニューロンがバイナリスパイク信号を伝達することを保証する。
SNNフィールドにおける最先端の結果であるImageNet-1Kでは、スパイク駆動トランスフォーマーが77.1\%のトップ-1精度を達成できることが示されている。
ソースコードはhttps://github.com/BICLab/Spike-Driven-Transformerで入手できる。
関連論文リスト
- Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Non-autoregressive Transformer with Unified Bidirectional Decoder for
Automatic Speech Recognition [20.93536420298548]
統一デコーダ(NAT-UBD)を用いた非自己回帰変換器を提案する。
NAT-UBDはAishell1の開発/テストセットで5.0%/5.5%の文字誤り率(CER)を達成でき、以前のNARトランスフォーマーモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-14T13:39:39Z) - Smart Bird: Learnable Sparse Attention for Efficient and Effective
Transformer [51.79399904527525]
学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。
Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。
次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
論文 参考訳(メタデータ) (2021-08-20T14:22:00Z) - Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。
エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。
本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:04:54Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。