論文の概要: Implementation of high-efficiency, lightweight residual spiking neural network processor based on field-programmable gate arrays
- arxiv url: http://arxiv.org/abs/2601.00802v1
- Date: Tue, 09 Dec 2025 02:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.500756
- Title: Implementation of high-efficiency, lightweight residual spiking neural network processor based on field-programmable gate arrays
- Title(参考訳): フィールドプログラマブルゲートアレイに基づく高効率軽量残留スパイクニューラルネットワークプロセッサの実装
- Authors: Hou Yue, Xiang Shuiying, Zou Tao, Huang Zhiquan, Shi Shangxuan, Guo Xingxing, Zhang Yahui, Zheng Ling, Hao Yue,
- Abstract要約: この研究は、アルゴリズムとハードウェアの共同設計を組み合わせて推論エネルギー効率を最適化する効率的な残留SNN加速器を提案する。
提案プロセッサは,CIFAR-10データセットの分類精度87.11%,画像あたり3.98ms,エネルギー効率183.5FPS/Wを実現している。
- 参考スコア(独自算出の注目度): 0.49806798459446283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of hardware-optimized deployment of spiking neural networks (SNNs), SNN processors based on field-programmable gate arrays (FPGAs) have become a research hotspot due to their efficiency and flexibility. However, existing methods rely on multi-timestep training and reconfigurable computing architectures, which increases computational and memory overhead, thus reducing deployment efficiency. This work presents an efficient and lightweight residual SNN accelerator that combines algorithm and hardware co-design to optimize inference energy efficiency. In terms of the algorithm, we employ single-timesteps training, integrate grouped convolutions, and fuse batch normalization (BN) layers, thus compressing the network to only 0.69M parameters. Quantization-aware training (QAT) further constrains all parameters to 8-bit precision. In terms of hardware, the reuse of intra-layer resources maximizes FPGA utilization, a full pipeline cross-layer architecture improves throughput, and on-chip block RAM (BRAM) stores network parameters and intermediate results to improve memory efficiency. The experimental results show that the proposed processor achieves a classification accuracy of 87.11% on the CIFAR-10 dataset, with an inference time of 3.98 ms per image and an energy efficiency of 183.5 FPS/W. Compared with mainstream graphics processing unit (GPU) platforms, it achieves more than double the energy efficiency. Furthermore, compared with other SNN processors, it achieves at least a 4x faster inference speed and a 5x higher energy efficiency.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)のハードウェア最適化展開の発展に伴い、フィールドプログラマブルゲートアレイ(FPGA)に基づくSNNプロセッサは、その効率性と柔軟性から研究ホットスポットとなっている。
しかし、既存の手法はマルチステップのトレーニングと再構成可能な計算アーキテクチャに依存しており、計算とメモリのオーバーヘッドが増大し、デプロイメント効率が低下する。
この研究は、アルゴリズムとハードウェアの共同設計を組み合わせて推論エネルギー効率を最適化する、効率的で軽量な残留SNN加速器を提案する。
このアルゴリズムでは、単一ステップのトレーニング、グループ化された畳み込みの統合、およびバッチ正規化(BN)層を融合することにより、ネットワークをわずか0.69Mパラメータに圧縮する。
量子化対応トレーニング(QAT)は、全てのパラメータを8ビット精度に制限する。
ハードウェアの面では、層内リソースの再利用はFPGAの利用を最大化し、パイプラインクロスレイヤアーキテクチャはスループットを改善し、オンチップブロックRAM(BRAM)はネットワークパラメータと中間結果を格納し、メモリ効率を向上させる。
実験結果から,CIFAR-10データセットの分類精度は87.11%,画像あたり3.98ms,エネルギー効率は183.5FPS/Wであった。
メインストリームのグラフィックス処理ユニット(GPU)プラットフォームと比較すると、エネルギー効率は2倍以上になる。
さらに、他のSNNプロセッサと比較して、少なくとも4倍高速な推論速度と5倍高速なエネルギー効率を実現している。
関連論文リスト
- Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。