論文の概要: MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework
- arxiv url: http://arxiv.org/abs/2009.07460v2
- Date: Sat, 17 Oct 2020 01:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:29:25.965118
- Title: MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework
- Title(参考訳): MSP:FPGA特有の混合スキーム、マルチ精度ディープニューラルネットワーク量子化フレームワーク
- Authors: Sung-En Chang, Yanyu Li, Mengshu Sun, Weiwen Jiang, Runbin Shi, Xue
Lin, Yanzhi Wang
- Abstract要約: 本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
- 参考スコア(独自算出の注目度): 39.43144643349916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the tremendous success of deep learning, there exists imminent need to
deploy deep learning models onto edge devices. To tackle the limited computing
and storage resources in edge devices, model compression techniques have been
widely used to trim deep neural network (DNN) models for on-device inference
execution. This paper targets the commonly used FPGA (field programmable gate
array) devices as the hardware platforms for DNN edge computing. We focus on
the DNN quantization as the main model compression technique, since DNN
quantization has been of great importance for the implementations of DNN models
on the hardware platforms. The novelty of this work comes in twofold: (i) We
propose a mixed-scheme DNN quantization method that incorporates both the
linear and non-linear number systems for quantization, with the aim to boost
the utilization of the heterogeneous computing resources, i.e., LUTs (look up
tables) and DSPs (digital signal processors) on an FPGA. Note that all the
existing (single-scheme) quantization methods can only utilize one type of
resources (either LUTs or DSPs for the MAC (multiply-accumulate) operations in
deep learning computations. (ii) We use a quantization method that supports
multiple precisions along the intra-layer dimension, while the existing
quantization methods apply multi-precision quantization along the inter-layer
dimension. The intra-layer multi-precision method can uniform the hardware
configurations for different layers to reduce computation overhead and at the
same time preserve the model accuracy as the inter-layer approach.
- Abstract(参考訳): ディープラーニングの驚異的な成功により、エッジデバイスにディープラーニングモデルをデプロイする必要性が差し迫っている。
エッジデバイスの限られたコンピューティングとストレージリソースに取り組むために、モデル圧縮技術はデバイス上での推論実行のためにディープニューラルネットワーク(DNN)モデルをトリムするために広く使用されている。
本稿では,DNNエッジコンピューティングのハードウェアプラットフォームとして,FPGA(フィールドプログラマブルゲートアレイ)デバイスを対象とする。
DNNの量子化はハードウェアプラットフォーム上でのDNNモデルの実装において非常に重要であるため、DNNの量子化を主要なモデル圧縮技術として重視する。
この作品の目新しさは2つあります
i) FPGA上でのLUT(テーブルの表示)とDSP(デジタル信号プロセッサ)といった異種コンピューティング資源の利用を促進することを目的として,線形および非線形の数値システムの両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
既存の(単一スキーム)量子化法はすべて、ディープラーニング計算におけるMAC(multiply-accumulate)演算に対して、LUTまたはDSPのどちらかのタイプのリソースしか利用できないことに注意。
(ii) 既存の量子化法では層内次元に沿って複数の精度をサポートする量子化法を用い, 既存の量子化法では層間次元に沿って多重精度量子化を適用する。
層内マルチ精度法では,異なる層に対するハードウェア構成を統一することで計算オーバーヘッドを低減できると同時に,層間アプローチのモデル精度を維持できる。
関連論文リスト
- Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization
framework for FPGA [37.780528948703406]
この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。
我々は、層内次元に沿って複数の精度をサポートする量子化法を用いる。
固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。
論文 参考訳(メタデータ) (2021-10-30T03:02:52Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization
Framework [39.981546951333556]
本稿では,ハードウェアフレンドリーなモデル圧縮手法である重量量子化について述べる。
これは、(1)異なる行の重みの分布は同じではなく、(2)FPGAハードウェアリソースのより良い利用を達成する可能性によって動機づけられます。
論文 参考訳(メタデータ) (2020-12-08T06:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。