論文の概要: Stochastic Spiking Attention: Accelerating Attention with Stochastic
Computing in Spiking Networks
- arxiv url: http://arxiv.org/abs/2402.09109v1
- Date: Wed, 14 Feb 2024 11:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:42:22.077546
- Title: Stochastic Spiking Attention: Accelerating Attention with Stochastic
Computing in Spiking Networks
- Title(参考訳): 確率スパイク注意:スパイクネットワークにおける確率コンピューティングによる注意の促進
- Authors: Zihang Song, Prabodh Katti, Osvaldo Simeone, Bipin Rajendran
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、計算要求の削減と電力効率の向上のため、最近Transformerアーキテクチャに統合されている。
我々は,SNNベースのトランスフォーマーのドット積アテンションを効果的に実行するために,計算(SC)を活用する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.51445486269896
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spiking Neural Networks (SNNs) have been recently integrated into Transformer
architectures due to their potential to reduce computational demands and to
improve power efficiency. Yet, the implementation of the attention mechanism
using spiking signals on general-purpose computing platforms remains
inefficient. In this paper, we propose a novel framework leveraging stochastic
computing (SC) to effectively execute the dot-product attention for SNN-based
Transformers. We demonstrate that our approach can achieve high classification
accuracy ($83.53\%$) on CIFAR-10 within 10 time steps, which is comparable to
the performance of a baseline artificial neural network implementation
($83.66\%$). We estimate that the proposed SC approach can lead to over
$6.3\times$ reduction in computing energy and $1.7\times$ reduction in memory
access costs for a digital CMOS-based ASIC design. We experimentally validate
our stochastic attention block design through an FPGA implementation, which is
shown to achieve $48\times$ lower latency as compared to a GPU implementation,
while consuming $15\times$ less power.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、計算要求の削減と電力効率の向上のため、最近Transformerアーキテクチャに統合されている。
しかし、汎用コンピューティングプラットフォームにおけるスパイク信号を用いた注意機構の実装は、いまだに非効率である。
本稿では,SNNベースのトランスフォーマーのドット積アテンションを効果的に実行するために,確率計算(SC)を利用した新しいフレームワークを提案する。
この手法は10時間以内に高い分類精度(83.53\%$)をcifar-10上で達成できることを実証する。これはベースラインのニューラルネットワーク実装(83.66\%$)の性能に匹敵するものである。
我々は、提案したSCアプローチは、コンピューティングエネルギーの6.3倍の削減と、デジタルCMOSベースのASIC設計のメモリアクセスコストの1.7倍の削減につながると見積もっている。
我々はFPGA実装による確率的アテンションブロック設計を実験的に検証し、GPU実装と比較して48\times$低レイテンシを実現するとともに、15\times$低電力を消費することを示した。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Accurate, Low-latency, Efficient SAR Automatic Target Recognition on
FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。
SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。
本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T05:35:30Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。