論文の概要: An Analog and Digital Hybrid Attention Accelerator for Transformers with Charge-based In-memory Computing
- arxiv url: http://arxiv.org/abs/2409.04940v1
- Date: Sun, 8 Sep 2024 01:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:00:10.402176
- Title: An Analog and Digital Hybrid Attention Accelerator for Transformers with Charge-based In-memory Computing
- Title(参考訳): チャージ型インメモリコンピューティングを用いた変圧器用アナログ・ディジタルハイブリッドアテンション加速器
- Authors: Ashkan Moradifirouzabadi, Divya Sri Dodla, Mingu Kang,
- Abstract要約: 本稿では,65nmCMOS技術における変圧器の注目機構を高速化するアナログ・ディジタルハイブリッドプロセッサを提案する。
超低消費電力・遅延で実行中に平均75%の低スコアトークンを発生させるアナログ・コンピューティング・イン・メモリ・コアを提案する。
デジタルプロセッサは、アナログCIMコアによって選択された25%の未処理トークンに対してのみ正確な計算を行い、劣化精度を防止する。
- 参考スコア(独自算出の注目度): 1.7170348600689374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism is a key computing kernel of Transformers, calculating pairwise correlations across the entire input sequence. The computing complexity and frequent memory access in computing self-attention put a huge burden on the system especially when the sequence length increases. This paper presents an analog and digital hybrid processor to accelerate the attention mechanism for transformers in 65nm CMOS technology. We propose an analog computing-in-memory (CIM) core, which prunes ~75% of low-score tokens on average during runtime at ultra-low power and delay. Additionally, a digital processor performs precise computations only for ~25% unpruned tokens selected by the analog CIM core, preventing accuracy degradation. Measured results show peak energy efficiency of 14.8 and 1.65 TOPS/W, and peak area efficiency of 976.6 and 79.4 GOPS/mm$^\mathrm{2}$ in the analog core and the system-on-chip (SoC), respectively.
- Abstract(参考訳): 注意機構はトランスフォーマーの重要な計算カーネルであり、入力シーケンス全体にわたってペアワイズ相関を計算する。
計算複雑性と自己アテンションの頻繁なメモリアクセスは、特にシーケンス長が増加するとシステムに大きな負担を被る。
本稿では,65nmCMOS技術における変圧器の注目機構を高速化するアナログ・ディジタルハイブリッドプロセッサを提案する。
超低消費電力・遅延で実行中に平均75%の低スコアトークンを発生させるアナログ・コンピューティング・イン・メモリ(CIM)コアを提案する。
さらに、アナログCIMコアによって選択された25%の未処理トークンに対してのみ正確な計算を行い、精度劣化を防止する。
その結果、ピークエネルギー効率は14.8TOPS/Wで、ピーク面積効率は976.6、ピーク面積効率は79.4GOPS/mm$^\mathrm{2}$である。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。
生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。
本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-28T11:00:11Z) - Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。
スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。
我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文 参考訳(メタデータ) (2024-04-08T16:34:35Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z) - CAP-RAM: A Charge-Domain In-Memory Computing 6T-SRAM for Accurate and
Precision-Programmable CNN Inference [27.376343943107788]
CAP-RAMは、コンパクトで、正確で、ビット幅でプログラム可能なインメモリ・コンピューティング(IMC)の静的ランダムアクセスメモリ(SRAM)マクロである。
エネルギー効率の良い畳み込みニューラルネットワーク(CNN)の推論を行う。
65nmのプロトタイプは、CAP-RAMの優れた線形性と計算精度を検証する。
論文 参考訳(メタデータ) (2021-07-06T04:59:16Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。