論文の概要: RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory
Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2312.06532v1
- Date: Wed, 29 Nov 2023 22:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:47:53.035509
- Title: RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory
Transformer Acceleration
- Title(参考訳): race-it:インメモリトランスフォーマーアクセラレーションのための再構成可能なアナログカムクロスバーエンジン
- Authors: Lei Zhao, Luca Buonanno, Ron M. Roth, Sergey Serebryakov, Archit
Gajjar, John Moon, Jim Ignowski, Giacomo Pedretti
- Abstract要約: Transformer ModelはDeep Neural Networks(DNN)の最先端を表現している。
これらのモデルを処理するには、かなりの計算資源が必要で、結果としてかなりのメモリフットプリントが要求される。
本稿では,トランスフォーマ内で様々な非MVM操作を行うことのできる新しいAnalog Content Addressable Memory(ACAM)構造を提案する。
- 参考スコア(独自算出の注目度): 21.196696191478885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models represent the cutting edge of Deep Neural Networks (DNNs)
and excel in a wide range of machine learning tasks. However, processing these
models demands significant computational resources and results in a substantial
memory footprint. While In-memory Computing (IMC) offers promise for
accelerating Matrix-Vector Multiplications (MVMs) with high computational
parallelism and minimal data movement, employing it for implementing other
crucial operators within DNNs remains a formidable task. This challenge is
exacerbated by the extensive use of Softmax and data-dependent matrix
multiplications within the attention mechanism. Furthermore, existing IMC
designs encounter difficulties in fully harnessing the benefits of analog MVM
acceleration due to the area and energy-intensive nature of Analog-to-Digital
Converters (ADCs). To tackle these challenges, we introduce a novel Compute
Analog Content Addressable Memory (Compute-ACAM) structure capable of
performing various non-MVM operations within Transformers. Together with the
crossbar structure, our proposed RACE-IT accelerator enables efficient
execution of all operations within Transformer models in the analog domain.
Given the flexibility of our proposed Compute-ACAMs to perform arbitrary
operations, RACE-IT exhibits adaptability to diverse non-traditional and future
DNN architectures without necessitating hardware modifications. Leveraging the
capability of Compute-ACAMs to process analog input and produce digital output,
we also replace ADCs, thereby reducing the overall area and energy costs. By
evaluating various Transformer models against state-of-the-art GPUs and
existing IMC accelerators, RACE-IT increases performance by 10.7x and 5.9x, and
reduces energy by 1193x, and 3.9x, respectively
- Abstract(参考訳): Transformerモデルはディープニューラルネットワーク(DNN)の最先端を表現し、幅広い機械学習タスクで優れています。
しかし、これらのモデルを処理するにはかなりの計算資源が必要であり、結果としてかなりのメモリフットプリントが得られる。
メモリ内コンピューティング(IMC)は、高い計算並列性と最小のデータ移動を伴うマトリックス-ベクター乗算(MVM)の高速化を約束する一方で、DNN内で他の重要な演算子を実装するためにそれを活用することは、依然として恐ろしい作業である。
この課題は、注意機構内のSoftmaxとデータ依存行列乗算の広範な利用によって悪化する。
さらに,アナログ・デジタル・コンバータ(ADC)の面積とエネルギー集約性により,アナログMVM加速の利点を十分に活用する上で,既存のIMC設計は困難である。
これらの課題に対処するために、トランスフォーマー内で様々な非MVM操作を実行できる新しいCompute-ACAM(Compute-ACAM)構造を導入する。
RACE-ITアクセラレーションは,クロスバー構造とともに,アナログ領域におけるTransformerモデル内の全ての操作の効率的な実行を可能にする。
任意の操作を行うために提案したCompute-ACAMの柔軟性を考えると、RAS-ITはハードウェア修正を必要とせず、多様な非従来型および将来のDNNアーキテクチャへの適応性を示す。
アナログ入力を処理してデジタル出力を生成するCompute-ACAMの能力を活用して、ADCを置き換えることにより、全体の面積とエネルギーコストを削減できる。
RACE-ITは、最先端GPUと既存のMCアクセラレータに対して様々なTransformerモデルを評価することにより、パフォーマンスを10.7xと5.9xに向上し、それぞれ1193xと3.9xに削減する。
関連論文リスト
- SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - ARTEMIS: A Mixed Analog-Stochastic In-DRAM Accelerator for Transformer Neural Networks [2.9699290794642366]
ARTEMISは、トランスフォーマーモデルのための混合アナログ確率型インDRAMアクセラレータである。
解析の結果、ARTEMISはGPU、TPU、CPU、最先端のPIMトランスハードウェアアクセラレータと比較して、少なくとも3.0倍のスピードアップ、1.8倍のエネルギー、そして1.9倍のエネルギー効率を示した。
論文 参考訳(メタデータ) (2024-07-17T15:08:14Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Reliability-Aware Deployment of DNNs on In-Memory Analog Computing
Architectures [0.0]
In-Memory Analog Computing (IMAC) 回路は、アナログ領域におけるMVMとNLVの両方の操作を実現することにより、信号変換器の必要性を取り除く。
我々は、ディープニューラルネットワーク(DNN)に大規模な行列を複数の小さなIMACサブアレイに展開する実践的なアプローチを導入し、ノイズや寄生虫の影響を軽減する。
論文 参考訳(メタデータ) (2022-10-02T01:43:35Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。