論文の概要: DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
- arxiv url: http://arxiv.org/abs/2405.03905v2
- Date: Tue, 26 Nov 2024 15:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:30:40.716230
- Title: DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
- Title(参考訳): DeltaKWS: 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
- Authors: Qinyu Chen, Kwantae Kim, Chang Gao, Sheng Zhou, Taekwang Jang, Tobi Delbruck, Shih-Chii Liu,
- Abstract要約: 本稿では,音声制御デバイスを対象としたDelta$RNN対応時空間細粒度対応KWS ICについて紹介する。
87%の時間間隔で、計算遅延とエネルギー/推論はそれぞれ2.4X/3.4Xに減少する。
- 参考スコア(独自算出の注目度): 16.1102923955667
- License:
- Abstract: This paper introduces DeltaKWS, to the best of our knowledge, the first $\Delta$RNN-enabled fine-grained temporal sparsity-aware KWS IC for voice-controlled devices. The 65 nm prototype chip features a number of techniques to enhance performance, area, and power efficiencies, specifically: 1) a bio-inspired delta-gated recurrent neural network ($\Delta$RNN) classifier leveraging temporal similarities between neighboring feature vectors extracted from input frames and network hidden states, eliminating unnecessary operations and memory accesses; 2) an IIR BPF-based FEx that leverages mixed-precision quantization, low-cost computing structure and channel selection; 3) a 24 kB 0.6 V near-$V_\text{TH}$ weight SRAM that achieves 6.6X lower read power than the foundry-provided SRAM. From chip measurement results, we show that the DeltaKWS achieves an 11/12-class GSCD accuracy of 90.5%/89.5% respectively and energy consumption of 36 nJ/decision in 65 nm CMOS process. At 87% temporal sparsity, computing latency and energy/inference are reduced by 2.4X/3.4X, respectively. The IIR BPF-based FEx, $\Delta$RNN accelerator, and 24 kB near-$V_\text{TH}$ SRAM blocks occupy 0.084 mm$^{2}$, 0.319 mm$^{2}$, and 0.381 mm$^{2}$ respectively (0.78 mm$^{2}$ in total).
- Abstract(参考訳): 本稿では,音声制御デバイス用のDelta$RNN対応細粒度時間空間対応KWS ICについて紹介する。
65nmのプロトタイプチップは、パフォーマンス、面積、電力効率を高めるための多くの技術を備えている。
1) 入力フレームから抽出された隣接する特徴ベクトルとネットワーク隠蔽状態との時間的類似性を活用し、不要な操作やメモリアクセスを排除したバイオインスパイアされたデルタゲートリカレントニューラルネットワーク(\Delta$RNN)分類器。
2) 混合精度量子化、低コストな計算構造、チャネル選択を利用したIIR BPFベースのFEx
3)24kB 0.6V近辺-$V_\text{TH}$ weight SRAMは、鋳造されたSRAMの6.6倍の読み出し能力を実現する。
チップ測定結果から, デルタKWSは11/12級GSCDの精度90.5%/89.5%, 65nmCMOSプロセスでは36nJ/decisionのエネルギー消費を達成した。
87%の時間間隔で、計算遅延とエネルギー/推論はそれぞれ2.4X/3.4Xに削減される。
IIR BPFベースのFEx、$\Delta$RNNアクセラレータ、24kB付近のV_\text{TH}$SRAMブロックはそれぞれ0.084 mm$^{2}$、0.319 mm$^{2}$、0.381 mm$^{2}$(合計0.78 mm$^{2}$)を占める。
関連論文リスト
- IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping [0.6071203743728119]
作業負荷適応型1-to-8b CIM-CNNアクセラレータであるIMAGINEを22nm FD-SOIで紹介する。
1152x256のエンドツーエンドのチャージベースマクロと、パワーハングリーDACを回避する入力シリアル、ウェイトパラレルの蓄積に基づくマルチビットDPを導入している。
測定結果は、MNISTとCIFAR-10の競争力を持つ、0.3/0.6Vで40TOPS/Wの8b系レベルのエネルギー効率を示す。
論文 参考訳(メタデータ) (2024-12-27T17:18:15Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - Vau da muntanialas: Energy-efficient multi-die scalable acceleration of
RNN inference [18.50014427283814]
LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaを3.25ドルTOP/s/W$のシリコン測定エネルギー効率で紹介する。
Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。
3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。
論文 参考訳(メタデータ) (2022-02-14T09:21:16Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Always-On 674uW @ 4GOP/s Error Resilient Binary Neural Networks with
Aggressive SRAM Voltage Scaling on a 22nm IoT End-Node [15.974669646920331]
バイナリニューラルネットワーク(BNN)は、ランダムなビットレベルのノイズに対して堅牢であることが示され、アグレッシブな電圧スケーリングが魅力的である。
ハードウェアアクセラレーションBNNを超低電圧で実行可能な,初の完全プログラム可能なIoTエンドノードシステムオンチップを提案する。
CIFAR-10データセットの4Gop/s(15.4Inference/s)を最大13ops/pJまで計算し,ピーク電力エンベロープ674uWで22.8Inference/s/mWを達成した。
論文 参考訳(メタデータ) (2020-07-17T12:56:58Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。