論文の概要: Binary Weight Multi-Bit Activation Quantization for Compute-in-Memory CNN Accelerators
- arxiv url: http://arxiv.org/abs/2508.21524v1
- Date: Fri, 29 Aug 2025 11:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.020868
- Title: Binary Weight Multi-Bit Activation Quantization for Compute-in-Memory CNN Accelerators
- Title(参考訳): メモリ内CNN加速器のためのバイナリ重み付きマルチビットアクティベーション量子化
- Authors: Wenyong Zhou, Zhengwu Liu, Yuan Ren, Ngai Wong,
- Abstract要約: CIMベースのアクセラレータ上でCNNのための新しいバイナリ重み付きマルチビットアクティベーション(BWMA)手法を提案する。
我々の貢献は、各層における重み量子化のための閉形式解の導出を含み、二項化重みの表現能力を大幅に改善することである。
BWMAは既存の手法よりも顕著な精度の向上を実現し、それぞれのデータセットで1.44%-5.46%、0.35%-5.37%の利得を登録している。
- 参考スコア(独自算出の注目度): 19.034502382765755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compute-in-memory (CIM) accelerators have emerged as a promising way for enhancing the energy efficiency of convolutional neural networks (CNNs). Deploying CNNs on CIM platforms generally requires quantization of network weights and activations to meet hardware constraints. However, existing approaches either prioritize hardware efficiency with binary weight and activation quantization at the cost of accuracy, or utilize multi-bit weights and activations for greater accuracy but limited efficiency. In this paper, we introduce a novel binary weight multi-bit activation (BWMA) method for CNNs on CIM-based accelerators. Our contributions include: deriving closed-form solutions for weight quantization in each layer, significantly improving the representational capabilities of binarized weights; and developing a differentiable function for activation quantization, approximating the ideal multi-bit function while bypassing the extensive search for optimal settings. Through comprehensive experiments on CIFAR-10 and ImageNet datasets, we show that BWMA achieves notable accuracy improvements over existing methods, registering gains of 1.44\%-5.46\% and 0.35\%-5.37\% on respective datasets. Moreover, hardware simulation results indicate that 4-bit activation quantization strikes the optimal balance between hardware cost and model performance.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)のエネルギー効率を高めるための有望な方法として、CIM(Compute-in-Memory)アクセラレータが登場した。
CIMプラットフォームにCNNをデプロイするには、ハードウェアの制約を満たすために、ネットワークの重み付けとアクティベーションの定量化が必要である。
しかし、既存のアプローチでは、二乗重み付きハードウェア効率とアクティベーション量子化を精度で優先するか、複数ビット重みとアクティベーションをより精度良く利用するかのどちらかである。
本稿では,CIMベースのアクセラレータ上でのCNNのための新しいバイナリ重み付きマルチビットアクティベーション(BWMA)手法を提案する。
我々の貢献は、各層における重み量子化のための閉形式解の導出、二項化重みの表現能力の大幅な向上、および活性化量子化のための微分可能な関数の開発、理想的なマルチビット関数の近似、そして最適な設定の広範な探索をバイパスすることである。
CIFAR-10とImageNetデータセットの総合的な実験を通して、BWMAは既存の手法よりも顕著な精度の向上を実現し、各データセットで1.44\%-5.46\%と0.35\%-5.37\%のゲインを登録している。
さらに, ハードウェアシミュレーションの結果から, 4ビットのアクティベーション量子化がハードウェアコストとモデル性能の最適バランスを損なうことが示唆された。
関連論文リスト
- Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - SWIS -- Shared Weight bIt Sparsity for Efficient Neural Network
Acceleration [68.36996813591423]
量子化は、ニューラルネットワークコンピューティングシステムの性能と効率の向上を先導している。
本稿では,効率的なニューラルネットワーク推論高速化のための量子化フレームワークSWIS-Shared Weight bIt Sparsityを提案する。
論文 参考訳(メタデータ) (2021-03-01T21:03:20Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。