論文の概要: ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation
- arxiv url: http://arxiv.org/abs/2309.01771v1
- Date: Mon, 4 Sep 2023 19:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:32:49.918123
- Title: ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation
- Title(参考訳): 周波数変換を伴う深部ニューラルネットワークのADC/DACフリーアナログ高速化
- Authors: Nastaran Darabi, Maeesha Binte Hashem, Hongyi Pan, Ahmet Cetin,
Wilfred Gomes, and Amit Ranjan Trivedi
- Abstract要約: 本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
- 参考スコア(独自算出の注目度): 2.7488316163114823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The edge processing of deep neural networks (DNNs) is becoming increasingly
important due to its ability to extract valuable information directly at the
data source to minimize latency and energy consumption. Frequency-domain model
compression, such as with the Walsh-Hadamard transform (WHT), has been
identified as an efficient alternative. However, the benefits of
frequency-domain processing are often offset by the increased
multiply-accumulate (MAC) operations required. This paper proposes a novel
approach to an energy-efficient acceleration of frequency-domain neural
networks by utilizing analog-domain frequency-based tensor transformations. Our
approach offers unique opportunities to enhance computational efficiency,
resulting in several high-level advantages, including array micro-architecture
with parallelism, ADC/DAC-free analog computations, and increased output
sparsity. Our approach achieves more compact cells by eliminating the need for
trainable parameters in the transformation matrix. Moreover, our novel array
micro-architecture enables adaptive stitching of cells column-wise and
row-wise, thereby facilitating perfect parallelism in computations.
Additionally, our scheme enables ADC/DAC-free computations by training against
highly quantized matrix-vector products, leveraging the parameter-free nature
of matrix multiplications. Another crucial aspect of our design is its ability
to handle signed-bit processing for frequency-based transformations. This leads
to increased output sparsity and reduced digitization workload. On a
16$\times$16 crossbars, for 8-bit input processing, the proposed approach
achieves the energy efficiency of 1602 tera operations per second per Watt
(TOPS/W) without early termination strategy and 5311 TOPS/W with early
termination strategy at VDD = 0.8 V.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のエッジ処理は、レイテンシとエネルギー消費を最小限に抑えるために、データソースに直接価値ある情報を抽出できることから、ますます重要になっている。
Walsh-Hadamard変換(WHT)のような周波数領域モデル圧縮は、効率的な代替手段として認識されている。
しかし、周波数領域処理の利点は、要求されるマルチプライアキュムレート(mac)演算によって相殺されることが多い。
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,並列処理による配列マイクロアーキテクチャ,ADC/DACフリーアナログ計算,出力空間の増大など,計算効率を向上させるユニークな機会を提供する。
本手法は,変換行列における学習可能なパラメータの必要性をなくし,よりコンパクトなセルを実現する。
さらに,我々の新しいアレイマイクロアーキテクチャにより,セルの列方向および行方向の適応的な縫合が可能となり,計算における完全並列化が容易となった。
さらに,行列乗算のパラメータフリー性を生かして,高度に量子化された行列ベクトル積に対してADC/DACフリーな計算を可能にする。
我々の設計におけるもうひとつの重要な側面は、周波数ベースの変換のための署名付きビット処理を扱う能力である。
これにより出力の幅が増加し、デジタル化の作業量が削減される。
16$\times$16のクロスバーで、8ビットの入力処理を行う場合、提案手法は早期終了戦略のないWatt(TOPS/W)当たり1602テラ演算と早期終了戦略を持つ5311TOPS/Wのエネルギー効率をVDD = 0.8Vで達成する。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators [5.245727758971415]
ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
論文 参考訳(メタデータ) (2024-07-17T07:56:43Z) - Containing Analog Data Deluge at Edge through Frequency-Domain
Compression in Collaborative Compute-in-Memory Networks [0.0]
本稿では,ディープラーニング推論タスクにおける領域効率向上のための新しい手法を提案する。
アナログデータをより効率的に処理することにより、センサからの貴重なデータを選択的に保持し、アナログデータデルージュによる課題を軽減することができる。
論文 参考訳(メタデータ) (2023-09-20T03:52:04Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Reliability-Aware Deployment of DNNs on In-Memory Analog Computing
Architectures [0.0]
In-Memory Analog Computing (IMAC) 回路は、アナログ領域におけるMVMとNLVの両方の操作を実現することにより、信号変換器の必要性を取り除く。
我々は、ディープニューラルネットワーク(DNN)に大規模な行列を複数の小さなIMACサブアレイに展開する実践的なアプローチを導入し、ノイズや寄生虫の影響を軽減する。
論文 参考訳(メタデータ) (2022-10-02T01:43:35Z) - Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of
Peripherals [11.31429464715989]
本稿では,ディープラーニングタスクを効率的に高速化する新しいPIMアーキテクチャを提案する。
アナログ集積回路とニューラル近似周辺回路で必要となるA/D変換を最小化する。
異なるベンチマークによる評価では、Neural-PIMはエネルギー効率を5.36x (1.73x)向上し、スループットを3.43x (1.59x)向上する。
論文 参考訳(メタデータ) (2022-01-30T16:14:49Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Non-Volatile Memory Array Based Quantization- and Noise-Resilient LSTM
Neural Networks [1.5332481598232224]
本稿では,LSTMモデルへの量子化対応学習アルゴリズムの適用に焦点を当てる。
4ビットのNVM重みと4ビットのADC/DACしか必要とせず、浮動小数点点のベースラインとして同等のLSTMネットワーク性能が得られることを示した。
提案したLSTM加速器のベンチマーク解析により、従来のデジタル手法に比べて少なくとも2.4倍の計算効率と40倍の面積効率が得られた。
論文 参考訳(メタデータ) (2020-02-25T02:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。