論文の概要: ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization
framework for FPGA
- arxiv url: http://arxiv.org/abs/2111.00155v1
- Date: Sat, 30 Oct 2021 03:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:26:32.193063
- Title: ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization
framework for FPGA
- Title(参考訳): ILMPQ : FPGAのための階層内マルチ精度ディープニューラルネットワーク量子化フレームワーク
- Authors: Sung-En Chang, Yanyu Li, Mengshu Sun, Yanzhi Wang, Xue Lin
- Abstract要約: この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。
我々は、層内次元に沿って複数の精度をサポートする量子化法を用いる。
固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 37.780528948703406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work targets the commonly used FPGA (field-programmable gate array)
devices as the hardware platform for DNN edge computing. We focus on DNN
quantization as the main model compression technique. The novelty of this work
is: We use a quantization method that supports multiple precisions along the
intra-layer dimension, while the existing quantization methods apply
multi-precision quantization along the inter-layer dimension. The intra-layer
multi-precision method can uniform the hardware configurations for different
layers to reduce computation overhead and at the same time preserve the model
accuracy as the inter-layer approach. Our proposed ILMPQ DNN quantization
framework achieves 70.73 Top1 accuracy in ResNet-18 on the ImageNet dataset. We
also validate the proposed MSP framework on two FPGA devices i.e., Xilinx
XC7Z020 and XC7Z045. We achieve 3.65x speedup in end-to-end inference time on
the ImageNet, compared with the fixed-point quantization method.
- Abstract(参考訳): この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。
主モデル圧縮技術としてDNN量子化に着目した。
本研究の目新しさは, 層内次元に沿って複数の精度をサポートする量子化法を用い, 既存の量子化法では層間次元に沿って多重精度量子化を適用できる点である。
層内マルチ精度法では,異なる層に対するハードウェア構成を統一することで計算オーバーヘッドを低減できると同時に,層間アプローチのモデル精度を維持できる。
提案するILMPQ DNN量子化フレームワークは,ImageNetデータセット上でResNet-18で70.73Top1の精度を実現する。
Xilinx XC7Z020 と XC7Z045 の2つのFPGAデバイス上で提案した MSP フレームワークを検証する。
固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization
Framework [39.981546951333556]
本稿では,ハードウェアフレンドリーなモデル圧縮手法である重量量子化について述べる。
これは、(1)異なる行の重みの分布は同じではなく、(2)FPGAハードウェアリソースのより良い利用を達成する可能性によって動機づけられます。
論文 参考訳(メタデータ) (2020-12-08T06:25:07Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。