論文の概要: FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation
- arxiv url: http://arxiv.org/abs/2203.12091v1
- Date: Tue, 22 Mar 2022 23:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 11:10:44.292635
- Title: FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation
- Title(参考訳): FxP-QNet:動的固定点表現を用いた混合低精度DNNの設計のためのポストトレーニング量子化器
- Authors: Ahmad Shawahna, Sadiq M. Sait, Aiman El-Maleh, and Irfan Ahmad
- Abstract要約: 我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
- 参考スコア(独自算出の注目度): 2.4149105714758545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) have demonstrated their effectiveness in a wide
range of computer vision tasks, with the state-of-the-art results obtained
through complex and deep structures that require intensive computation and
memory. Now-a-days, efficient model inference is crucial for consumer
applications on resource-constrained platforms. As a result, there is much
interest in the research and development of dedicated deep learning (DL)
hardware to improve the throughput and energy efficiency of DNNs. Low-precision
representation of DNN data-structures through quantization would bring great
benefits to specialized DL hardware. However, the rigorous quantization leads
to a severe accuracy drop. As such, quantization opens a large hyper-parameter
space at bit-precision levels, the exploration of which is a major challenge.
In this paper, we propose a novel framework referred to as the Fixed-Point
Quantizer of deep neural Networks (FxP-QNet) that flexibly designs a mixed
low-precision DNN for integer-arithmetic-only deployment. Specifically, the
FxP-QNet gradually adapts the quantization level for each data-structure of
each layer based on the trade-off between the network accuracy and the
low-precision requirements. Additionally, it employs post-training
self-distillation and network prediction error statistics to optimize the
quantization of floating-point values into fixed-point numbers. Examining
FxP-QNet on state-of-the-art architectures and the benchmark ImageNet dataset,
we empirically demonstrate the effectiveness of FxP-QNet in achieving the
accuracy-compression trade-off without the need for training. The results show
that FxP-QNet-quantized AlexNet, VGG-16, and ResNet-18 reduce the overall
memory requirements of their full-precision counterparts by 7.16x, 10.36x, and
6.44x with less than 0.95%, 0.95%, and 1.99% accuracy drop, respectively.
- Abstract(参考訳): 深層ニューラルネットワーク(dnn)は、集中的な計算とメモリを必要とする複雑な深層構造を通じて得られた最先端の結果と合わせて、幅広いコンピュータビジョンタスクにおいてその効果を実証した。
現在、効率的なモデル推論は、リソース制約のあるプラットフォーム上のコンシューマアプリケーションにとって不可欠である。
その結果、DNNのスループットとエネルギー効率を向上させるため、専用ディープラーニング(DL)ハードウェアの研究と開発に多くの関心が寄せられている。
量子化によるDNNデータ構造の低精度表現は、特殊なDLハードウェアに大きな利点をもたらすだろう。
しかし、厳密な量子化は厳密な精度低下につながる。
このように量子化はビット精度レベルで大きなハイパーパラメータ空間を開き、その探索は大きな課題である。
本稿では,整数-有理展開のための混合低精度dnnを柔軟に設計する,ディープニューラルネットワークの固定点量子化器 (fxp-qnet) と呼ばれる新しいフレームワークを提案する。
具体的には、FxP-QNetは、ネットワーク精度と低精度要求とのトレードオフに基づいて、各レイヤのデータ構造毎の量子化レベルを徐々に適応させる。
さらに、学習後の自己蒸留とネットワーク予測誤差統計を用いて浮動小数点値の固定点数への量子化を最適化する。
FxP-QNetの最先端アーキテクチャとベンチマークであるImageNetデータセットについて検討し、FxP-QNetがトレーニングを必要とせずに精度圧縮トレードオフを達成する上での有効性を実証的に示す。
その結果、FxP-QNet量子化AlexNet、VGG-16、ResNet-18は、それぞれ0.95%未満の7.16x、10.36x、6.44xのメモリ要求を1.99%の精度で削減した。
関連論文リスト
- On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA [0.0]
層単位での混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。
本稿では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。
我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。
論文 参考訳(メタデータ) (2022-08-09T15:32:51Z) - Green, Quantized Federated Learning over Wireless Networks: An
Energy-Efficient Design [68.86220939532373]
有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。
提案するFLフレームワークは,ベースラインFLアルゴリズムと比較して,収束までのエネルギー消費量を最大70%削減することができる。
論文 参考訳(メタデータ) (2022-07-19T16:37:24Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - On the Tradeoff between Energy, Precision, and Accuracy in Federated
Quantized Neural Networks [68.52621234990728]
無線ネットワーク上でのフェデレーション学習(FL)は、精度、エネルギー効率、精度のバランスをとる必要がある。
本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現できる量子化FLフレームワークを提案する。
我々のフレームワークは標準的なFLモデルと比較してエネルギー消費量を最大53%削減できる。
論文 参考訳(メタデータ) (2021-11-15T17:00:03Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。