論文の概要: PIM-QAT: Neural Network Quantization for Processing-In-Memory (PIM)
Systems
- arxiv url: http://arxiv.org/abs/2209.08617v1
- Date: Sun, 18 Sep 2022 17:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:47:18.303270
- Title: PIM-QAT: Neural Network Quantization for Processing-In-Memory (PIM)
Systems
- Title(参考訳): PIM-QAT:PIMシステムのためのニューラルネットワーク量子化
- Authors: Qing Jin, Zhiyu Chen, Jian Ren, Yanyu Li, Yanzhi Wang, Kaiyuan Yang
- Abstract要約: 本稿では、PIM量子化対応トレーニング(PIM-QAT)アルゴリズムを提案し、トレーニング収束を容易にする再スケーリング手法を提案する。
また,実PIMチップにおける非理想線形性と熱雑音の悪影響を抑制するために,バッチ正規化(BN)校正と調整精度トレーニングという2つの手法を提案する。
- 参考スコア(独自算出の注目度): 36.35995812401125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Processing-in-memory (PIM), an increasingly studied neuromorphic hardware,
promises orders of energy and throughput improvements for deep learning
inference. Leveraging the massively parallel and efficient analog computing
inside memories, PIM circumvents the bottlenecks of data movements in
conventional digital hardware. However, an extra quantization step (i.e. PIM
quantization), typically with limited resolution due to hardware constraints,
is required to convert the analog computing results into digital domain.
Meanwhile, non-ideal effects extensively exist in PIM quantization because of
the imperfect analog-to-digital interface, which further compromises the
inference accuracy.
In this paper, we propose a method for training quantized networks to
incorporate PIM quantization, which is ubiquitous to all PIM systems.
Specifically, we propose a PIM quantization aware training (PIM-QAT) algorithm,
and introduce rescaling techniques during backward and forward propagation by
analyzing the training dynamics to facilitate training convergence. We also
propose two techniques, namely batch normalization (BN) calibration and
adjusted precision training, to suppress the adverse effects of non-ideal
linearity and stochastic thermal noise involved in real PIM chips. Our method
is validated on three mainstream PIM decomposition schemes, and physically on a
prototype chip. Comparing with directly deploying conventionally trained
quantized model on PIM systems, which does not take into account this extra
quantization step and thus fails, our method provides significant improvement.
It also achieves comparable inference accuracy on PIM systems as that of
conventionally quantized models on digital hardware, across CIFAR10 and
CIFAR100 datasets using various network depths for the most popular network
topology.
- Abstract(参考訳): ますます研究されているニューロモルフィックハードウェアであるProcessing-in-Memory (PIM)は、ディープラーニング推論のためのエネルギーとスループットの改善を約束している。
PIMは、メモリ内の非常に並列で効率的なアナログコンピューティングを活用し、従来のデジタルハードウェアにおけるデータ移動のボトルネックを回避する。
しかし、通常、ハードウェアの制約により解像度が制限された余分な量子化ステップ(すなわち pim 量子化)は、アナログ計算結果をデジタルドメインに変換するために必要である。
一方、非理想効果は、不完全なアナログ-デジタルインターフェースのため、PIM量子化において広範囲に存在する。
本稿では,すべてのPIMシステムに広く普及しているPIM量子化を取り入れた量子化ネットワークのトレーニング手法を提案する。
具体的には、PIM量子化対応トレーニング(PIM-QAT)アルゴリズムを提案し、トレーニングダイナミクスを分析し、トレーニング収束を容易にすることにより、後方および前方伝播中の再スケーリング手法を提案する。
また,実PIMチップにおける非理想線形性と確率的熱雑音の悪影響を抑制するために,バッチ正規化(BN)キャリブレーションと調整精度トレーニングという2つの手法を提案する。
提案手法は,3つの主流PIM分解方式,およびプロトタイプチップ上での物理的検証を行う。
この余分な量子化ステップを考慮せずにPIMシステムに直接訓練された量子化モデルをデプロイするのに比べ、本手法は大幅な改善をもたらす。
また、PIMシステムでは、CIFAR10とCIFAR100データセットをまたいだデジタルハードウェア上の従来の量子化モデルと同等の推測精度を達成し、最も人気のあるネットワークトポロジに様々なネットワーク深度を使用する。
関連論文リスト
- EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Bulk-Switching Memristor-based Compute-In-Memory Module for Deep Neural
Network Training [15.660697326769686]
本稿では,memristor-based Compute-in-Memory (CIM)モジュールの混合精度トレーニング手法を提案する。
提案方式は、完全に統合されたアナログCIMモジュールとデジタルサブシステムからなるシステムオンチップ(SoC)を用いて実装される。
より大規模なモデルのトレーニングの有効性は、現実的なハードウェアパラメータを用いて評価され、アナログCIMモジュールが、完全精度のソフトウェアトレーニングモデルに匹敵する精度で、効率的な混合精度トレーニングを可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-23T22:03:08Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。