論文の概要: AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator
- arxiv url: http://arxiv.org/abs/2111.06503v1
- Date: Wed, 10 Nov 2021 10:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 14:53:59.224386
- Title: AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator
- Title(参考訳): AnalogNets: ML-HW共設計によるノイズローバーなTinyMLモデルとアナログ・コンピュート・イン・メモリ・アクセラレータ
- Authors: Chuteng Zhou, Fernando Garcia Redondo, Julian B\"uchel, Irem Boybat,
Xavier Timoneda Comas, S. R. Nandakumar, Shidhartha Das, Abu Sebastian,
Manuel Le Gallo, Paul N. Whatmough
- Abstract要約: 本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
- 参考スコア(独自算出の注目度): 50.31646817567764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Always-on TinyML perception tasks in IoT applications require very high
energy efficiency. Analog compute-in-memory (CiM) using non-volatile memory
(NVM) promises high efficiency and also provides self-contained on-chip model
storage. However, analog CiM introduces new practical considerations, including
conductance drift, read/write noise, fixed analog-to-digital (ADC) converter
gain, etc. These additional constraints must be addressed to achieve models
that can be deployed on analog CiM with acceptable accuracy loss. This work
describes $\textit{AnalogNets}$: TinyML models for the popular always-on
applications of keyword spotting (KWS) and visual wake words (VWW). The model
architectures are specifically designed for analog CiM, and we detail a
comprehensive training methodology, to retain accuracy in the face of analog
non-idealities, and low-precision data converters at inference time. We also
describe AON-CiM, a programmable, minimal-area phase-change memory (PCM) analog
CiM accelerator, with a novel layer-serial approach to remove the cost of
complex interconnects associated with a fully-pipelined design. We evaluate the
AnalogNets on a calibrated simulator, as well as real hardware, and find that
accuracy degradation is limited to 0.8$\%$/1.2$\%$ after 24 hours of PCM drift
(8-bit) for KWS/VWW. AnalogNets running on the 14nm AON-CiM accelerator
demonstrate 8.58/4.37 TOPS/W for KWS/VWW workloads using 8-bit activations,
respectively, and increasing to 57.39/25.69 TOPS/W with $4$-bit activations.
- Abstract(参考訳): IoTアプリケーションのTinyML認識タスクは、常に非常に高いエネルギー効率を必要とする。
非揮発性メモリ(NVM)を使用したアナログ・コンピュート・イン・メモリ(CiM)は高い効率を約束し、自己完結型のオンチップモデルストレージを提供する。
しかし、アナログCiMは、コンダクタンスドリフト、リード/ライトノイズ、固定アナログ-デジタルコンバータゲイン(ADC)など、新しい実践的考察を導入する。
これらの追加制約は、許容された精度の損失でアナログCiMにデプロイできるモデルを達成するために対処する必要がある。
この研究は、キーワードスポッティング(KWS)とビジュアルウェイクワード(VWW)の一般的な常時オンアプリケーションのための、$\textit{AnalogNets}$: TinyMLモデルを記述する。
モデルアーキテクチャはアナログCiMに特化して設計されており、アナログ非イデアリティや低精度データコンバータの予測時の精度を維持するための総合的なトレーニング手法を詳述する。
また,プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
実ハードウェアと同様に校正シミュレータ上でのアナログネットの評価を行い,kws/vwwの24時間ドリフト(8ビット)後の精度低下は0.8$\%$/1.2$$$$$$$であることを確認した。
14nmのAON-CiM加速器上で動作するアナログネットは、8ビットのアクティベーションを使用してKWS/VWWのワークロードに対して8.58/4.37 TOPS/Wを示し、57.39/25.69 TOPS/Wのアクティベーションは4ドルである。
関連論文リスト
- A Pipelined Memristive Neural Network Analog-to-Digital Converter [0.24578723416255754]
本稿では,4ビットコンバータのパイプラインに基づくスケーラブルでモジュール化されたニューラルネットワークADCアーキテクチャを提案する。
8ビットパイプライン ADC は 0.18 LSB INL, 0.20 LSB DNL, 7.6 ENOB, 0.97 fJ/conv FOM を達成する。
論文 参考訳(メタデータ) (2024-06-04T10:51:12Z) - RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory
Transformer Acceleration [21.196696191478885]
Transformer ModelはDeep Neural Networks(DNN)の最先端を表現している。
これらのモデルを処理するには、かなりの計算資源が必要で、結果としてかなりのメモリフットプリントが要求される。
本稿では,トランスフォーマ内で様々な非MVM操作を行うことのできる新しいAnalog Content Addressable Memory(ACAM)構造を提案する。
論文 参考訳(メタデータ) (2023-11-29T22:45:39Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - AnalogNAS: A Neural Network Design Framework for Accurate Inference with
Analog In-Memory Computing [7.596833322764203]
エッジでの推論は低レイテンシ、コンパクト、電力効率のモデルを必要とする。
アナログ/混合信号インメモリコンピューティングハードウェアアクセラレータは、フォン・ノイマンアーキテクチャのメモリ壁を簡単に超越することができる。
本稿では,アナログインメモリコンピューティング(IMC)推論アクセラレータをターゲットとした,DNN(Deep Neural Network)自動設計のためのフレームワークであるAnalogNASを提案する。
論文 参考訳(メタデータ) (2023-05-17T07:39:14Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A Charge Domain P-8T SRAM Compute-In-Memory with Low-Cost DAC/ADC
Operation for 4-bit Input Processing [4.054285623919103]
本稿では,PMOS ベースの 8T (P-8T) Compute-In-Memory (CIM) アーキテクチャを提案する。
4ビットの入力アクティベーションと8ビットの重みの間の乗算累積(MAC)演算を効率よく行う。
28nm CMOSプロセスを用いた256X80 P-8T CIMマクロ実装は、91.46%と66.67%の精度を示している。
論文 参考訳(メタデータ) (2022-11-29T08:15:27Z) - On the Accuracy of Analog Neural Network Inference Accelerators [0.9440010225411358]
近年,ニューラルネットワーク推論の消費電力削減手法として,特別なアクセラレータが注目されている。
この研究は、特にニューラルネットワークパラメータをアナログメモリセルにマッピングする際のアーキテクチャ設計の決定が、推論精度にどのように影響するかを示す。
論文 参考訳(メタデータ) (2021-09-03T01:38:11Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。