Fugu-MT 論文翻訳(概要): Trainable Fixed-Point Quantization for Deep Learning Acceleration on FPGAs

論文の概要: Trainable Fixed-Point Quantization for Deep Learning Acceleration on FPGAs

arxiv url: http://arxiv.org/abs/2401.17544v1
Date: Wed, 31 Jan 2024 02:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 15:51:53.075388
Title: Trainable Fixed-Point Quantization for Deep Learning Acceleration on FPGAs
Title（参考訳）: FPGA上でのディープラーニング高速化のためのトレーニング可能な固定点量子化
Authors: Dingyi Dai, Yichi Zhang, Jiahao Zhang, Zhanqiu Hu, Yaohui Cai, Qi Sun, Zhiru Zhang
Abstract要約: 量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。 QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
参考スコア（独自算出の注目度）: 30.325651150798915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantization is a crucial technique for deploying deep learning models on resource-constrained devices, such as embedded FPGAs. Prior efforts mostly focus on quantizing matrix multiplications, leaving other layers like BatchNorm or shortcuts in floating-point form, even though fixed-point arithmetic is more efficient on FPGAs. A common practice is to fine-tune a pre-trained model to fixed-point for FPGA deployment, but potentially degrading accuracy. This work presents QFX, a novel trainable fixed-point quantization approach that automatically learns the binary-point position during model training. Additionally, we introduce a multiplier-free quantization strategy within QFX to minimize DSP usage. QFX is implemented as a PyTorch-based library that efficiently emulates fixed-point arithmetic, supported by FPGA HLS, in a differentiable manner during backpropagation. With minimal effort, models trained with QFX can readily be deployed through HLS, producing the same numerical results as their software counterparts. Our evaluation shows that compared to post-training quantization, QFX can quantize models trained with element-wise layers quantized to fewer bits and achieve higher accuracy on both CIFAR-10 and ImageNet datasets. We further demonstrate the efficacy of multiplier-free quantization using a state-of-the-art binarized neural network accelerator designed for an embedded FPGA (AMD Xilinx Ultra96 v2). We plan to release QFX in open-source format.
Abstract（参考訳）: 量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。 BatchNormやショートカットなどの他のレイヤは浮動小数点演算の方がFPGAの方が効率的だが、それまでの取り組みは主に行列乗算の定量化に重点を置いていた。一般的なプラクティスは、トレーニング済みモデルをFPGAデプロイメントの固定点に微調整するが、精度は低下する可能性がある。この研究は、モデルトレーニング中に二点位置を自動的に学習する新しいトレーニング可能な固定点量子化手法であるQFXを示す。さらに, qfx において, dsp の使用を最小限に抑えるために, マルチプライアフリー量子化戦略を導入する。 QFX は PyTorch ベースのライブラリとして実装され,FPGA HLS でサポートされている固定点演算を,バックプロパゲーション時に異なる方法で効率的にエミュレートする。最小限の労力で、QFXでトレーニングされたモデルはHLSを通じて容易にデプロイでき、ソフトウェアと同じ数値結果が得られる。評価の結果、後トレーニングの量子化と比較して、qfxは、より少ないビットに量子化され、cifar-10とimagenetの両方のデータセットで高い精度を達成できることがわかった。さらに,組込みFPGA(AMD Xilinx Ultra96 v2)用に設計された最先端のバイナライズニューラルネットワークアクセラレータを用いた乗算器フリー量子化の有効性を示す。オープンソース形式でQFXをリリースする予定です。

関連論文リスト

MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。 RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文参考訳（メタデータ） (2025-01-06T22:40:40Z)
Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文参考訳（メタデータ） (2025-01-05T02:30:41Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。 We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文参考訳（メタデータ） (2024-02-16T16:10:38Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
A2Q: Accumulator-Aware Quantization with Guaranteed Overflow Avoidance [49.1574468325115]
accumulator-aware Quantization (A2Q)は、量子化されたニューラルネットワーク(QNN)をトレーニングして、推論時のオーバーフローを回避するために設計された新しい重み量子化手法である。 A2Qは重み正規化にインスパイアされたユニークな定式化を導入し、アキュミュレータビット幅境界に従ってモデルの重みのL1ノルムを制約する。 A2Qは浮動小数点ベースラインと競合するモデルの精度を維持しつつ、低精度のアキュムレータのためのQNNを訓練できることを示す。
論文参考訳（メタデータ） (2023-08-25T17:28:58Z)
ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization framework for FPGA [37.780528948703406]
この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。我々は、層内次元に沿って複数の精度をサポートする量子化法を用いる。固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
論文参考訳（メタデータ） (2021-10-30T03:02:52Z)
FAST: DNN Training Under Variable Precision Block Floating Point with Stochastic Rounding [11.820523621760255]
ブロック浮動小数点(BFP)はディープニューラルネットワーク(DNN)トレーニングの量子化を効率的にサポートする。重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。
論文参考訳（メタデータ） (2021-10-28T22:24:33Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)
Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。 DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文参考訳（メタデータ） (2021-09-05T15:15:07Z)
MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文参考訳（メタデータ） (2020-09-16T04:24:18Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。また,n-BQ-NNという新しいQNN構造も提案する。 SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2020-04-06T04:21:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。