論文の概要: Neural Network Quantization with AI Model Efficiency Toolkit (AIMET)
- arxiv url: http://arxiv.org/abs/2201.08442v1
- Date: Thu, 20 Jan 2022 20:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 21:50:00.376876
- Title: Neural Network Quantization with AI Model Efficiency Toolkit (AIMET)
- Title(参考訳): AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化
- Authors: Sangeetha Siddegowda, Marios Fournarakis, Markus Nagel, Tijmen
Blankevoort, Chirag Patel, Abhijit Khobare
- Abstract要約: AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化の概要について述べる。
AIMETは、モデル最適化に必要な作業を容易にするために設計された最先端の量子化および圧縮アルゴリズムのライブラリである。
我々は、PTQとQAT、コード例、実用的なヒントを網羅し、AIMETによる量子化の実践的なガイドを提供する。
- 参考スコア(独自算出の注目度): 15.439669159557253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While neural networks have advanced the frontiers in many machine learning
applications, they often come at a high computational cost. Reducing the power
and latency of neural network inference is vital to integrating modern networks
into edge devices with strict power and compute requirements. Neural network
quantization is one of the most effective ways of achieving these savings, but
the additional noise it induces can lead to accuracy degradation. In this white
paper, we present an overview of neural network quantization using AI Model
Efficiency Toolkit (AIMET). AIMET is a library of state-of-the-art quantization
and compression algorithms designed to ease the effort required for model
optimization and thus drive the broader AI ecosystem towards low latency and
energy-efficient inference. AIMET provides users with the ability to simulate
as well as optimize PyTorch and TensorFlow models. Specifically for
quantization, AIMET includes various post-training quantization (PTQ, cf.
chapter 4) and quantization-aware training (QAT, cf. chapter 5) techniques that
guarantee near floating-point accuracy for 8-bit fixed-point inference. We
provide a practical guide to quantization via AIMET by covering PTQ and QAT
workflows, code examples and practical tips that enable users to efficiently
and effectively quantize models using AIMET and reap the benefits of low-bit
integer inference.
- Abstract(参考訳): ニューラルネットワークは多くの機械学習アプリケーションにおいてフロンティアを進歩させてきたが、しばしば計算コストが高い。
ニューラルネットワーク推論のパワーとレイテンシの削減は、厳格なパワーと計算要件を備えたエッジデバイスへの現代的なネットワーク統合に不可欠である。
ニューラルネットワークの量子化は、これらの節約を達成する最も効果的な方法の1つであるが、それが引き起こす追加ノイズは、精度の低下につながる。
本稿では,AIモデル効率ツールキット(AIMET)を用いたニューラルネットワークの量子化について概説する。
AIMETは最先端の量子化と圧縮アルゴリズムのライブラリで、モデル最適化に必要な労力を軽減し、より広範なAIエコシステムを低レイテンシとエネルギー効率の推論へと導くように設計されている。
AIMETは、PyTorchとTensorFlowモデルを最適化するだけでなく、シミュレートする機能を提供する。
特に量子化のために、AIMETは様々なポストトレーニング量子化(PTQ, cf)を含む。
章
4) と量子化アウェアトレーニング(qat, cf。
章
5) 8ビット固定点推定における浮動小数点精度を保証する技術。
PTQおよびQATワークフロー、コード例、実用的なヒントを網羅し、AIMETを用いてモデルを効率的かつ効果的に定量化し、低ビット整数推論の利点を享受できるようにする。
関連論文リスト
- Constraint Guided Model Quantization of Neural Networks [0.0]
Constraint Guided Model Quantization (CGMQ) は、計算資源の上限を使い、ニューラルネットワークのパラメータのビット幅を削減する量子化対応トレーニングアルゴリズムである。
MNISTでは、CGMQの性能が最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2024-09-30T09:41:16Z) - AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - QVIP: An ILP-based Formal Verification Approach for Quantized Neural
Networks [14.766917269393865]
量子化は、浮動小数点数に匹敵する精度でニューラルネットワークのサイズを減らすための有望な技術として登場した。
そこで本研究では,QNNに対する新しい,効率的な形式検証手法を提案する。
特に、QNNの検証問題を整数線形制約の解法に還元する符号化を初めて提案する。
論文 参考訳(メタデータ) (2022-12-10T03:00:29Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。