論文の概要: Multiplier-free In-Memory Vector-Matrix Multiplication Using Distributed Arithmetic
- arxiv url: http://arxiv.org/abs/2510.02099v1
- Date: Thu, 02 Oct 2025 15:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.176818
- Title: Multiplier-free In-Memory Vector-Matrix Multiplication Using Distributed Arithmetic
- Title(参考訳): 分散算術を用いたマルチプライヤフリーインメモリベクトル行列乗算
- Authors: Felix Zeller, John Reuben, Dietmar Fey,
- Abstract要約: 本研究では,入力ベクトルを定数行列で乗算するためにDA法を拡張した。
メモリに重みの合計を格納することで、DAはReRAMメモリの周辺にシフト・アンド・アドバンス回路を用いてVMMを達成する。
提案手法は, 従来, ビットスライシングによりメモリ上で実行されていたVMMよりも4.5倍の遅延と12倍の省エネを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vector-Matrix Multiplication (VMM) is the fundamental and frequently required computation in inference of Neural Networks (NN). Due to the large data movement required during inference, VMM can benefit greatly from in-memory computing. However, ADC/DACs required for in-memory VMM consume significant power and area. `Distributed Arithmetic (DA)', a technique in computer architecture prevalent in 1980s was used to achieve inner product or dot product of two vectors without using a hard-wired multiplier when one of the vectors is a constant. In this work, we extend the DA technique to multiply an input vector with a constant matrix. By storing the sum of the weights in memory, DA achieves VMM using shift-and-add circuits in the periphery of ReRAM memory. We verify functional and also estimate non-functional properties (latency, energy, area) by performing transistor-level simulations. Using energy-efficient sensing and fine grained pipelining, our approach achieves 4.5 x less latency and 12 x less energy than VMM performed in memory conventionally by bit slicing. Furthermore, DA completely eliminated the need for power-hungry ADCs which are the main source of area and energy consumption in the current VMM implementations in memory.
- Abstract(参考訳): ベクトル行列乗算(VMM)は、ニューラルネットワーク(NN)の推論における基本的かつ頻繁に必要とされる計算である。
推論時に必要とされる大規模なデータ移動のため、VMMはインメモリコンピューティングの恩恵を受けることができる。
しかし、インメモリVMMに必要なADC/DACは、かなりの電力と面積を消費する。
1980年代に普及したコンピュータアーキテクチャの技法である「分散算術(DA)」は、ベクトルの一方が定数であるときにハードワイヤ乗算器を使わずに、2つのベクトルの内部積やドット積を達成するために用いられた。
本研究では,入力ベクトルを定数行列で乗算するためにDA法を拡張した。
メモリに重みの合計を格納することで、DAはReRAMメモリの周辺にシフト・アンド・アドバンス回路を用いてVMMを達成する。
トランジスタレベルのシミュレーションにより,機能特性(レイテンシ,エネルギー,面積)を検証し,非機能特性(レイテンシ,エネルギー,面積)を推定する。
エネルギー効率の高いセンサと細粒度パイプライニングを用いることで,従来のビットスライシングによるVMMよりも4.5倍のレイテンシと12倍の省エネを実現している。
さらに、DAは、メモリにおける現在のVMM実装において、面積とエネルギー消費の主源である電力消費 ADC の必要性を完全に排除した。
関連論文リスト
- Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - Reliability-Aware Deployment of DNNs on In-Memory Analog Computing
Architectures [0.0]
In-Memory Analog Computing (IMAC) 回路は、アナログ領域におけるMVMとNLVの両方の操作を実現することにより、信号変換器の必要性を取り除く。
我々は、ディープニューラルネットワーク(DNN)に大規模な行列を複数の小さなIMACサブアレイに展開する実践的なアプローチを導入し、ノイズや寄生虫の影響を軽減する。
論文 参考訳(メタデータ) (2022-10-02T01:43:35Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。