Fugu-MT 論文翻訳(概要): DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM

論文の概要: DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM

arxiv url: http://arxiv.org/abs/2405.03905v2
Date: Tue, 26 Nov 2024 15:37:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.254802
Title: DeltaKWS: A 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
Title（参考訳）: DeltaKWS: 65nm 36nJ/Decision Bio-inspired Temporal-Sparsity-Aware Digital Keyword Spotting IC with 0.6V Near-Threshold SRAM
Authors: Qinyu Chen, Kwantae Kim, Chang Gao, Sheng Zhou, Taekwang Jang, Tobi Delbruck, Shih-Chii Liu,
Abstract要約: 本稿では,音声制御デバイスを対象としたDelta$RNN対応時空間細粒度対応KWS ICについて紹介する。 87%の時間間隔で、計算遅延とエネルギー/推論はそれぞれ2.4X/3.4Xに減少する。
参考スコア（独自算出の注目度）: 16.1102923955667
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces DeltaKWS, to the best of our knowledge, the first $\Delta$RNN-enabled fine-grained temporal sparsity-aware KWS IC for voice-controlled devices. The 65 nm prototype chip features a number of techniques to enhance performance, area, and power efficiencies, specifically: 1) a bio-inspired delta-gated recurrent neural network ($\Delta$RNN) classifier leveraging temporal similarities between neighboring feature vectors extracted from input frames and network hidden states, eliminating unnecessary operations and memory accesses; 2) an IIR BPF-based FEx that leverages mixed-precision quantization, low-cost computing structure and channel selection; 3) a 24 kB 0.6 V near-$V_\text{TH}$ weight SRAM that achieves 6.6X lower read power than the foundry-provided SRAM. From chip measurement results, we show that the DeltaKWS achieves an 11/12-class GSCD accuracy of 90.5%/89.5% respectively and energy consumption of 36 nJ/decision in 65 nm CMOS process. At 87% temporal sparsity, computing latency and energy/inference are reduced by 2.4X/3.4X, respectively. The IIR BPF-based FEx, $\Delta$RNN accelerator, and 24 kB near-$V_\text{TH}$ SRAM blocks occupy 0.084 mm$^{2}$, 0.319 mm$^{2}$, and 0.381 mm$^{2}$ respectively (0.78 mm$^{2}$ in total).
Abstract（参考訳）: 本稿では,音声制御デバイス用のDelta$RNN対応細粒度時間空間対応KWS ICについて紹介する。 65nmのプロトタイプチップは、パフォーマンス、面積、電力効率を高めるための多くの技術を備えている。 1) 入力フレームから抽出された隣接する特徴ベクトルとネットワーク隠蔽状態との時間的類似性を活用し、不要な操作やメモリアクセスを排除したバイオインスパイアされたデルタゲートリカレントニューラルネットワーク(\Delta$RNN)分類器。 2) 混合精度量子化、低コストな計算構造、チャネル選択を利用したIIR BPFベースのFEx 3)24kB 0.6V近辺-$V_\text{TH}$ weight SRAMは、鋳造されたSRAMの6.6倍の読み出し能力を実現する。チップ測定結果から, デルタKWSは11/12級GSCDの精度90.5%/89.5%, 65nmCMOSプロセスでは36nJ/decisionのエネルギー消費を達成した。 87%の時間間隔で、計算遅延とエネルギー/推論はそれぞれ2.4X/3.4Xに削減される。 IIR BPFベースのFEx、$\Delta$RNNアクセラレータ、24kB付近のV_\text{TH}$SRAMブロックはそれぞれ0.084 mm$^{2}$、0.319 mm$^{2}$、0.381 mm$^{2}$(合計0.78 mm$^{2}$)を占める。

関連論文リスト

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文参考訳（メタデータ） (2025-12-16T04:39:10Z)
DarwinWafer: A Wafer-Scale Neuromorphic Chip [43.876109856399886]
我々は,300mmシリコンインターポーサ上に64個のDarwin3チップレットを高密度に統合し,オフチップ配線をウェハスケールで置き換えるハイパースケールシステム・オン・ウェハを提案する。各チップレット内のGALS NoCと階層的な時間ステップ同期を備えたAERベースの非同期ウエハファブリックは、ウエハをまたいだ低レイテンシでコヒーレントな動作を提供する。 DarwinWaferは100Wを消費し、64TSOPSピークスループット(0.64TSOPS/W)で4.9pJ/SOPを達成する。
論文参考訳（メタデータ） (2025-08-30T00:22:09Z)
BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文参考訳（メタデータ） (2025-07-11T17:28:56Z)
VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文参考訳（メタデータ） (2025-04-15T14:28:48Z)
A 71.2-$μ$W Speech Recognition Accelerator with Recurrent Spiking Neural Network [0.0502254944841629]
本稿では,2つの繰り返し層と1つの完全連結層,低時間ステップを有する小型の繰り返しスパイクニューラルネットワークを提案する。 2.79MBモデルでは、プルーニングと4ビットの固定点量子化が行われ、96.42%から0.1MBに縮小した。このデザインは100kHzでリアルタイムに動作し、71.2 mu$Wを消費し、最先端の設計を上回っている。
論文参考訳（メタデータ） (2025-03-27T10:14:00Z)
IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping [0.6071203743728119]
作業負荷適応型1-to-8b CIM-CNNアクセラレータであるIMAGINEを22nm FD-SOIで紹介する。 1152x256のエンドツーエンドのチャージベースマクロと、パワーハングリーDACを回避する入力シリアル、ウェイトパラレルの蓄積に基づくマルチビットDPを導入している。測定結果は、MNISTとCIFAR-10の競争力を持つ、0.3/0.6Vで40TOPS/Wの8b系レベルのエネルギー効率を示す。
論文参考訳（メタデータ） (2024-12-27T17:18:15Z)
A Heterogeneous RISC-V based SoC for Secure Nano-UAV Navigation [40.8381466360025]
ナノUAVは高度な計算能力を必要とする一方で、大きな電力とペイロードの制約に直面している。 9mm2200mWシステム・オン・ア・チップ(SoC)のShaheenについて紹介する。 Linux対応のRV64コアと、v1.0の承認されたハイパーバイザ拡張と、低コストで低消費電力のメモリコントローラを統合している。同時に、汎用DSP向けに最適化されたRV32コアの完全プログラム可能なエネルギー効率と面積効率のマルチコアクラスタを統合している。
論文参考訳（メタデータ） (2024-01-07T16:03:47Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
RAMP: A Flat Nanosecond Optical Network and MPI Operations for Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。 RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文参考訳（メタデータ） (2022-11-28T11:24:51Z)
Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文参考訳（メタデータ） (2022-05-18T17:49:49Z)
Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference [18.50014427283814]
LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaを3.25ドルTOP/s/W$のシリコン測定エネルギー効率で紹介する。 Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。 3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。
論文参考訳（メタデータ） (2022-02-14T09:21:16Z)
Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文参考訳（メタデータ） (2021-10-18T08:47:45Z)
CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。 65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文参考訳（メタデータ） (2021-07-06T04:59:16Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Sound Event Detection with Binary Neural Networks on Tightly Power-Constrained IoT Devices [20.349809458335532]
サウンドイベント検出(SED)は、消費者およびスマートシティアプリケーションのホットトピックです。 Deep Neural Networksに基づく既存のアプローチは非常に効果的ですが、メモリ、電力、スループットの面で非常に要求が高いです。本稿では,高エネルギー効率なRISC-V(8+1)コアGAP8マイクロコントローラと,極端量子化と小プリントバイナリニューラルネットワーク(BNN)の組み合わせについて検討する。
論文参考訳（メタデータ） (2021-01-12T12:38:23Z)
Always-On 674uW @ 4GOP/s Error Resilient Binary Neural Networks with Aggressive SRAM Voltage Scaling on a 22nm IoT End-Node [15.974669646920331]
バイナリニューラルネットワーク(BNN)は、ランダムなビットレベルのノイズに対して堅牢であることが示され、アグレッシブな電圧スケーリングが魅力的である。ハードウェアアクセラレーションBNNを超低電圧で実行可能な,初の完全プログラム可能なIoTエンドノードシステムオンチップを提案する。 CIFAR-10データセットの4Gop/s(15.4Inference/s)を最大13ops/pJまで計算し,ピーク電力エンベロープ674uWで22.8Inference/s/mWを達成した。
論文参考訳（メタデータ） (2020-07-17T12:56:58Z)
SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文参考訳（メタデータ） (2020-05-07T12:12:49Z)
Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文参考訳（メタデータ） (2020-02-04T04:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。