論文の概要: A 71.2-$μ$W Speech Recognition Accelerator with Recurrent Spiking Neural Network
- arxiv url: http://arxiv.org/abs/2503.21337v1
- Date: Thu, 27 Mar 2025 10:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:11.324091
- Title: A 71.2-$μ$W Speech Recognition Accelerator with Recurrent Spiking Neural Network
- Title(参考訳): 繰り返しスパイクニューラルネットワークを用いた71.2-μ$W音声認識加速器
- Authors: Chih-Chyau Yang, Tian-Sheuan Chang,
- Abstract要約: 本稿では,2つの繰り返し層と1つの完全連結層,低時間ステップを有する小型の繰り返しスパイクニューラルネットワークを提案する。
2.79MBモデルでは、プルーニングと4ビットの固定点量子化が行われ、96.42%から0.1MBに縮小した。
このデザインは100kHzでリアルタイムに動作し、71.2 mu$Wを消費し、最先端の設計を上回っている。
- 参考スコア(独自算出の注目度): 0.0502254944841629
- License:
- Abstract: This paper introduces a 71.2-$\mu$W speech recognition accelerator designed for edge devices' real-time applications, emphasizing an ultra low power design. Achieved through algorithm and hardware co-optimizations, we propose a compact recurrent spiking neural network with two recurrent layers, one fully connected layer, and a low time step (1 or 2). The 2.79-MB model undergoes pruning and 4-bit fixed-point quantization, shrinking it by 96.42\% to 0.1 MB. On the hardware front, we take advantage of \textit{mixed-level pruning}, \textit{zero-skipping} and \textit{merged spike} techniques, reducing complexity by 90.49\% to 13.86 MMAC/S. The \textit{parallel time-step execution} addresses inter-time-step data dependencies and enables weight buffer power savings through weight sharing. Capitalizing on the sparse spike activity, an input broadcasting scheme eliminates zero computations, further saving power. Implemented on the TSMC 28-nm process, the design operates in real time at 100 kHz, consuming 71.2 $\mu$W, surpassing state-of-the-art designs. At 500 MHz, it has 28.41 TOPS/W and 1903.11 GOPS/mm$^2$ in energy and area efficiency, respectively.
- Abstract(参考訳): 本稿では,エッジデバイスのリアルタイムアプリケーション用に設計された71.2-$\mu$W音声認識アクセラレータを紹介し,超低消費電力設計を強調した。
アルゴリズムとハードウェアの協調最適化により,2つの繰り返し層,1つの完全連結層,および1または2の低時間ステップを持つ,コンパクトな繰り返しスパイクニューラルネットワークを提案する。
2.79-MBモデルでは、プルーニングと4ビットの固定点量子化が行われ、96.42\%から0.1 MBに縮小する。
ハードウェア面では、 \textit{mixed-level pruning} 、 \textit{zero-skipping} および \textit{merged spike} 技術を活用し、複雑性を 90.49\% から 13.86 MMAC/S に削減する。
\textit{parallel time-step execution}は、タイムステップ間のデータ依存関係に対処し、ウェイトシェアリングによる重みバッファの省電力を可能にする。
スパーススパイク活動に乗じて、入力放送方式はゼロ計算を排除し、省電力化を図る。
TSMC 28nmプロセスに実装され、100kHzでリアルタイムに動作し、71.2$\mu$Wを消費し、最先端の設計を上回った。
500MHzでは28.41TOPS/W、1903.11GOPS/mm$^2$のエネルギーと面積効率を持つ。
関連論文リスト
- Achieving Energetic Superiority Through System-Level Quantum Circuit Simulation [38.413545516612025]
量子計算スーパーオリティは、高速な計算と高エネルギー効率を誇っている。
我々は,グローバル,ノード,デバイスレベルでの最適化を利用して,テンソルネットワークにおける前例のないスケーラビリティを実現する,画期的な大規模システム技術を提案する。
我々はエネルギー消費2.39kWhの14.22秒の解法を達成し、0.002の忠実度を達成し、最も顕著な結果は17.18秒の解法である。
論文 参考訳(メタデータ) (2024-06-30T17:14:59Z) - DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM [16.1102923955667]
本稿では,音声制御デバイスを対象としたDelta$RNN対応時空間細粒度対応KWS ICについて紹介する。
87%の時間間隔で、計算遅延とエネルギー/推論はそれぞれ2.4X/3.4Xに減少する。
論文 参考訳(メタデータ) (2024-05-06T23:41:02Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Sparse Compressed Spiking Neural Network Accelerator for Object
Detection [0.1246030133914898]
スパイキングニューラルネットワーク(SNN)は、人間の脳にインスパイアされ、バイナリスパイクと非常にスパースなアクティベーションマップを送信する。
本稿では, 活性化マップと重みの疎度を生かした, スパース圧縮スパイクニューラルネットワーク加速器を提案する。
ニューラルネットワークの実験結果は、71.5$%$mAPで、ISV 3clsデータセットの混合(1,3)タイムステップを示している。
論文 参考訳(メタデータ) (2022-05-02T09:56:55Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Sound Event Detection with Binary Neural Networks on Tightly
Power-Constrained IoT Devices [20.349809458335532]
サウンドイベント検出(SED)は、消費者およびスマートシティアプリケーションのホットトピックです。
Deep Neural Networksに基づく既存のアプローチは非常に効果的ですが、メモリ、電力、スループットの面で非常に要求が高いです。
本稿では,高エネルギー効率なRISC-V(8+1)コアGAP8マイクロコントローラと,極端量子化と小プリントバイナリニューラルネットワーク(BNN)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2021-01-12T12:38:23Z) - TinyRadarNN: Combining Spatial and Temporal Convolutional Neural
Networks for Embedded Gesture Recognition with Short Range Radars [13.266626571886354]
本研究は,バッテリ操作型ウェアラブルデバイスを対象とした,低消費電力な組込み手位置認識アルゴリズムを提案する。
範囲周波数ドップラー特徴を用いた2次元畳み込みニューラルネットワーク(CNN)と時間列予測のための時間畳み込みニューラルネットワーク(TCN)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-25T15:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。