論文の概要: Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs
- arxiv url: http://arxiv.org/abs/2401.17544v1
- Date: Wed, 31 Jan 2024 02:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:51:53.075388
- Title: Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs
- Title(参考訳): FPGA上でのディープラーニング高速化のためのトレーニング可能な固定点量子化
- Authors: Dingyi Dai, Yichi Zhang, Jiahao Zhang, Zhanqiu Hu, Yaohui Cai, Qi Sun,
Zhiru Zhang
- Abstract要約: 量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
- 参考スコア(独自算出の注目度): 30.325651150798915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a crucial technique for deploying deep learning models on
resource-constrained devices, such as embedded FPGAs. Prior efforts mostly
focus on quantizing matrix multiplications, leaving other layers like BatchNorm
or shortcuts in floating-point form, even though fixed-point arithmetic is more
efficient on FPGAs. A common practice is to fine-tune a pre-trained model to
fixed-point for FPGA deployment, but potentially degrading accuracy.
This work presents QFX, a novel trainable fixed-point quantization approach
that automatically learns the binary-point position during model training.
Additionally, we introduce a multiplier-free quantization strategy within QFX
to minimize DSP usage. QFX is implemented as a PyTorch-based library that
efficiently emulates fixed-point arithmetic, supported by FPGA HLS, in a
differentiable manner during backpropagation. With minimal effort, models
trained with QFX can readily be deployed through HLS, producing the same
numerical results as their software counterparts. Our evaluation shows that
compared to post-training quantization, QFX can quantize models trained with
element-wise layers quantized to fewer bits and achieve higher accuracy on both
CIFAR-10 and ImageNet datasets. We further demonstrate the efficacy of
multiplier-free quantization using a state-of-the-art binarized neural network
accelerator designed for an embedded FPGA (AMD Xilinx Ultra96 v2). We plan to
release QFX in open-source format.
- Abstract(参考訳): 量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
BatchNormやショートカットなどの他のレイヤは浮動小数点演算の方がFPGAの方が効率的だが、それまでの取り組みは主に行列乗算の定量化に重点を置いていた。
一般的なプラクティスは、トレーニング済みモデルをFPGAデプロイメントの固定点に微調整するが、精度は低下する可能性がある。
この研究は、モデルトレーニング中に二点位置を自動的に学習する新しいトレーニング可能な固定点量子化手法であるQFXを示す。
さらに, qfx において, dsp の使用を最小限に抑えるために, マルチプライアフリー量子化戦略を導入する。
QFX は PyTorch ベースのライブラリとして実装され,FPGA HLS でサポートされている固定点演算を,バックプロパゲーション時に異なる方法で効率的にエミュレートする。
最小限の労力で、QFXでトレーニングされたモデルはHLSを通じて容易にデプロイでき、ソフトウェアと同じ数値結果が得られる。
評価の結果、後トレーニングの量子化と比較して、qfxは、より少ないビットに量子化され、cifar-10とimagenetの両方のデータセットで高い精度を達成できることがわかった。
さらに,組込みFPGA(AMD Xilinx Ultra96 v2)用に設計された最先端のバイナライズニューラルネットワークアクセラレータを用いた乗算器フリー量子化の有効性を示す。
オープンソース形式でQFXをリリースする予定です。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for
the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。
多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。
We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文 参考訳(メタデータ) (2024-02-16T16:10:38Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。
A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。
A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文 参考訳(メタデータ) (2023-08-25T17:28:58Z) - ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization
framework for FPGA [37.780528948703406]
この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。
我々は、層内次元に沿って複数の精度をサポートする量子化法を用いる。
固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
論文 参考訳(メタデータ) (2021-10-30T03:02:52Z) - FAST: DNN Training Under Variable Precision Block Floating Point with
Stochastic Rounding [11.820523621760255]
ブロック浮動小数点(BFP)はディープニューラルネットワーク(DNN)トレーニングの量子化を効率的にサポートする。
重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。
論文 参考訳(メタデータ) (2021-10-28T22:24:33Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。
また,n-BQ-NNという新しいQNN構造も提案する。
SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-04-06T04:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。