論文の概要: Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators
- arxiv url: http://arxiv.org/abs/2502.07842v2
- Date: Thu, 13 Mar 2025 11:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 19:20:52.575349
- Title: Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators
- Title(参考訳): 高精度かつ効率的なメモリ内加速器のためのカラムワイドな重みと部分和の量子化
- Authors: Jiyoon Kim, Kang Eun Jeon, Yulhwa Kim, Jong Hwan Ko,
- Abstract要約: CIMはディープニューラルネットワーク(DNN)を実装するための効率的な方法であるが、かなりのオーバーヘッドに悩まされている。
低精度のADCは、このオーバーヘッドを削減できるが、部分的なサム量子化誤差による精度低下をもたらす。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
- 参考スコア(独自算出の注目度): 7.728820930581886
- License:
- Abstract: Compute-in-memory (CIM) is an efficient method for implementing deep neural networks (DNNs) but suffers from substantial overhead from analog-to-digital converters (ADCs), especially as ADC precision increases. Low-precision ADCs can reduce this overhead but introduce partial-sum quantization errors degrading accuracy. Additionally, low-bit weight constraints, imposed by cell limitations and the need for multiple cells for higher-bit weights, present further challenges. While fine-grained partial-sum quantization has been studied to lower ADC resolution effectively, weight granularity, which limits overall partial-sum quantized accuracy, remains underexplored. This work addresses these challenges by aligning weight and partial-sum quantization granularities at the column-wise level. Our method improves accuracy while maintaining dequantization overhead, simplifies training by removing two-stage processes, and ensures robustness to memory cell variations via independent column-wise scale factors. We also propose an open-source CIM-oriented convolution framework to handle fine-grained weights and partial-sums efficiently, incorporating a novel tiling method and group convolution. Experimental results on ResNet-20 (CIFAR-10, CIFAR-100) and ResNet-18 (ImageNet) show accuracy improvements of 0.99%, 2.69%, and 1.01%, respectively, compared to the best-performing related works. Additionally, variation analysis reveals the robustness of our method against memory cell variations. These findings highlight the effectiveness of our quantization scheme in enhancing accuracy and robustness while maintaining hardware efficiency in CIM-based DNN implementations. Our code is available at https://github.com/jiyoonkm/ColumnQuant.
- Abstract(参考訳): Compute-in-Memory(CIM)は、ディープニューラルネットワーク(DNN)を実装するための効率的な方法であるが、特にADCの精度が向上するにつれて、アナログ・デジタルコンバータ(ADC)のかなりのオーバーヘッドに悩まされる。
低精度のADCは、このオーバーヘッドを削減できるが、部分的なサム量子化誤差による精度低下をもたらす。
さらに、セル制限によって課される低ビットの重みの制約や、高ビットの重みに対する複数のセルの必要性により、さらなる課題が提示される。
ADCの分解能を効果的に低下させるために、微粒な部分サム量子化が研究されているが、全体的な部分サム量子化精度を制限する重みの粒度は、まだ未解明のままである。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
本手法は,遅延化オーバーヘッドを維持しながら精度を向上し,2段階プロセスの除去によるトレーニングを簡略化し,独立したカラムワイドスケールファクタによるメモリセルの変動に対する堅牢性を確保する。
また,新たなタイリング手法とグループ畳み込みを取り入れたオープンソースのCIM指向の畳み込みフレームワークを提案する。
ResNet-20 (CIFAR-10, CIFAR-100) と ResNet-18 (ImageNet) の実験結果は、それぞれ0.99%、2.69%、1.01%の精度向上を示した。
さらに, 変動解析により, メモリセルの変動に対する我々の手法の堅牢性を明らかにする。
これらの結果は、CIMベースのDNN実装におけるハードウェア効率を維持しつつ、精度と堅牢性を向上するための量子化方式の有効性を強調した。
私たちのコードはhttps://github.com/jiyoonkm/ColumnQuant.comから入手可能です。
関連論文リスト
- A2Q+: Improving Accumulator-Aware Weight Quantization [45.14832807541816]
量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。
最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。
我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
論文 参考訳(メタデータ) (2024-01-19T00:27:34Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。