論文の概要: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
- arxiv url: http://arxiv.org/abs/2405.03905v1
- Date: Mon, 6 May 2024 23:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:48:10.763158
- Title: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
- Title(参考訳): 65nm36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
- Authors: Qinyu Chen, Kwantae Kim, Chang Gao, Sheng Zhou, Taekwang Jang, Tobi Delbruck, Shih-Chii Liu,
- Abstract要約: 本稿では,著者の知識を最大限に活用するために,最初の細粒度時間空間認識キーワードスポッティング(KWS)ICを紹介する。
このKWS ICは、バイオインスパイアされたデルタゲートリカレントニューラルネットワーク(DeltaRNN)を特徴とし、90.5%の精度と36nJ/決定のエネルギー消費を実現している。
- 参考スコア(独自算出の注目度): 16.1102923955667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces, to the best of the authors' knowledge, the first fine-grained temporal sparsity-aware keyword spotting (KWS) IC leveraging temporal similarities between neighboring feature vectors extracted from input frames and network hidden states, eliminating unnecessary operations and memory accesses. This KWS IC, featuring a bio-inspired delta-gated recurrent neural network ({\Delta}RNN) classifier, achieves an 11-class Google Speech Command Dataset (GSCD) KWS accuracy of 90.5% and energy consumption of 36nJ/decision. At 87% temporal sparsity, computing latency and energy per inference are reduced by 2.4$\times$/3.4$\times$, respectively. The 65nm design occupies 0.78mm$^2$ and features two additional blocks, a compact 0.084mm$^2$ digital infinite-impulse-response (IIR)-based band-pass filter (BPF) audio feature extractor (FEx) and a 24kB 0.6V near-Vth weight SRAM with 6.6$\times$ lower read power compared to the standard SRAM.
- Abstract(参考訳): 本稿では,入力フレームから抽出した隣接特徴ベクトルとネットワーク隠蔽状態との時間的類似性を活かし,不要な操作やメモリアクセスを排除した,最初の微細な時空間認識キーワードスポッティング(KWS)ICについて紹介する。
このKWS ICは、バイオインスパイアされたデルタゲートリカレントニューラルネットワーク({\Delta}RNN)分類器を特徴とし、11クラスのGoogle Speech Command Dataset (GSCD) KWS精度90.5%、エネルギー消費量36nJ/decisionを達成している。
87%の時間間隔で、計算遅延と推論毎のエネルギーはそれぞれ2.4$\times$/3.4$\times$に削減される。
65nmの設計は0.78mm$^2$を占有し、コンパクトな0.084mm$^2$デジタル無限インパルス(IIR)ベースの帯域通過フィルタ(BPF)オーディオ特徴抽出器(FEx)と24kB 0.6V近VのSRAMの6.6$\times$標準のSRAMより低いリードパワーの2つの追加ブロックを備えている。
関連論文リスト
- IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping [0.6071203743728119]
作業負荷適応型1-to-8b CIM-CNNアクセラレータであるIMAGINEを22nm FD-SOIで紹介する。
1152x256のエンドツーエンドのチャージベースマクロと、パワーハングリーDACを回避する入力シリアル、ウェイトパラレルの蓄積に基づくマルチビットDPを導入している。
測定結果は、MNISTとCIFAR-10の競争力を持つ、0.3/0.6Vで40TOPS/Wの8b系レベルのエネルギー効率を示す。
論文 参考訳(メタデータ) (2024-12-27T17:18:15Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - Vau da muntanialas: Energy-efficient multi-die scalable acceleration of
RNN inference [18.50014427283814]
LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaを3.25ドルTOP/s/W$のシリコン測定エネルギー効率で紹介する。
Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。
3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。
論文 参考訳(メタデータ) (2022-02-14T09:21:16Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Always-On 674uW @ 4GOP/s Error Resilient Binary Neural Networks with
Aggressive SRAM Voltage Scaling on a 22nm IoT End-Node [15.974669646920331]
バイナリニューラルネットワーク(BNN)は、ランダムなビットレベルのノイズに対して堅牢であることが示され、アグレッシブな電圧スケーリングが魅力的である。
ハードウェアアクセラレーションBNNを超低電圧で実行可能な,初の完全プログラム可能なIoTエンドノードシステムオンチップを提案する。
CIFAR-10データセットの4Gop/s(15.4Inference/s)を最大13ops/pJまで計算し,ピーク電力エンベロープ674uWで22.8Inference/s/mWを達成した。
論文 参考訳(メタデータ) (2020-07-17T12:56:58Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。