論文の概要: Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization
Framework
- arxiv url: http://arxiv.org/abs/2012.04240v2
- Date: Sat, 12 Dec 2020 00:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 09:07:05.878188
- Title: Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization
Framework
- Title(参考訳): Mix and Match: 新しいFPGA中心のディープニューラルネットワーク量子化フレームワーク
- Authors: Sung-En Chang, Yanyu Li, Mengshu Sun, Runbin Shi, Hayden K.-H. So,
Xuehai Qian, Yanzhi Wang, Xue Lin
- Abstract要約: 本稿では,ハードウェアフレンドリーなモデル圧縮手法である重量量子化について述べる。
これは、(1)異なる行の重みの分布は同じではなく、(2)FPGAハードウェアリソースのより良い利用を達成する可能性によって動機づけられます。
- 参考スコア(独自算出の注目度): 39.981546951333556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) have achieved extraordinary performance in
various application domains. To support diverse DNN models, efficient
implementations of DNN inference on edge-computing platforms, e.g., ASICs,
FPGAs, and embedded systems, are extensively investigated. Due to the huge
model size and computation amount, model compression is a critical step to
deploy DNN models on edge devices. This paper focuses on weight quantization, a
hardware-friendly model compression approach that is complementary to weight
pruning. Unlike existing methods that use the same quantization scheme for all
weights, we propose the first solution that applies different quantization
schemes for different rows of the weight matrix. It is motivated by (1) the
distribution of the weights in the different rows are not the same; and (2) the
potential of achieving better utilization of heterogeneous FPGA hardware
resources. To achieve that, we first propose a hardware-friendly quantization
scheme named sum-of-power-of-2 (SP2) suitable for Gaussian-like weight
distribution, in which the multiplication arithmetic can be replaced with logic
shifter and adder, thereby enabling highly efficient implementations with the
FPGA LUT resources. In contrast, the existing fixed-point quantization is
suitable for Uniform-like weight distribution and can be implemented
efficiently by DSP. Then to fully explore the resources, we propose an
FPGA-centric mixed scheme quantization (MSQ) with an ensemble of the proposed
SP2 and the fixed-point schemes. Combining the two schemes can maintain, or
even increase accuracy due to better matching with weight distributions.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、様々なアプリケーションドメインで素晴らしいパフォーマンスを実現している。
多様なDNNモデルをサポートするために, ASIC, FPGA, 組込みシステムなどのエッジコンピューティングプラットフォーム上でのDNN推論の効率的な実装について検討した。
モデルサイズと計算量が大きいため、モデル圧縮はDNNモデルをエッジデバイスにデプロイするための重要なステップである。
本稿では,重量量子化に着目し,重量計算を補完するハードウェアフレンドリーなモデル圧縮手法を提案する。
全ての重みに対して同じ量子化スキームを用いる既存の方法とは異なり、重み行列の異なる行に対して異なる量子化スキームを適用する最初の解を提案する。
1) 異なる列における重みの分布は同じではないこと,(2) 異種FPGAハードウェア資源のより良い利用を実現する可能性によって動機づけられる。
そこで本研究では,まず,論理シフト器と加算器に乗算演算を置き換え,FPGA LUTリソースの高効率な実装を可能にする,ガウス的な重み分布に適したハードウェアフレンドリな量子化手法を提案する。
対照的に、既存の不動点量子化は一様重み分布に適しており、dspにより効率的に実装できる。
そこで本研究では,提案するSP2と固定点スキームのアンサンブルを用いたFPGA中心の混合スキーム量子化(MSQ)を提案する。
2つのスキームを組み合わせることで、重量分布との整合性が向上し、精度が向上する。
関連論文リスト
- Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文 参考訳(メタデータ) (2023-10-30T02:04:20Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - EQ-Net: Elastic Quantization Neural Networks [15.289359357583079]
Elastic Quantization Neural Networks (EQ-Net) は、堅牢な重み共有量子化スーパーネットのトレーニングを目的としている。
本稿では, 様々な主要な量形式に対応するために, 弾性量子化空間(弾性ビット幅, 粒度, 対称性を含む)を提案する。
遺伝的アルゴリズムと,提案した条件量子化対応条件精度予測器(CQAP)を推定器として組み込んで,混合精度量子ニューラルネットワークを高速に探索する。
論文 参考訳(メタデータ) (2023-08-15T08:57:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z) - ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization
framework for FPGA [37.780528948703406]
この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。
我々は、層内次元に沿って複数の精度をサポートする量子化法を用いる。
固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
論文 参考訳(メタデータ) (2021-10-30T03:02:52Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。