論文の概要: Analyzing Quantization in TVM
- arxiv url: http://arxiv.org/abs/2308.10905v1
- Date: Sat, 19 Aug 2023 07:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:19:10.029051
- Title: Analyzing Quantization in TVM
- Title(参考訳): TVMにおける量子化の解析
- Authors: Mingfei Guo
- Abstract要約: TVMは重量を定量化し、低ビット計算をサポートする。
8ビットの量子化は通常、全精度推論時間の約50%を達成することが期待されている。
本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の機会を評価することにある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been many papers in academic literature on quantizing weight
tensors in deep learning models to reduce inference latency and memory
footprint. TVM also has the ability to quantize weights and support low-bit
computations. Although quantization is typically expected to improve inference
time, in TVM, the performance of 8-bit quantization does not meet the
expectations. Typically, when applying 8-bit quantization to a deep learning
model, it is usually expected to achieve around 50% of the full-precision
inference time. However, in this particular case, not only does the quantized
version fail to achieve the desired performance boost, but it actually performs
worse, resulting in an inference time that is about 2 times as slow as the
non-quantized version. In this project, we thoroughly investigate the reasons
behind the underperformance and assess the compatibility and optimization
opportunities of 8-bit quantization in TVM. We discuss the optimization of two
different types of tasks: computation-bound and memory-bound, and provide a
detailed comparison of various optimization techniques in TVM. Through the
identification of performance issues, we have successfully improved
quantization by addressing a bug in graph building. Furthermore, we analyze
multiple optimization strategies to achieve the optimal quantization result.
The best experiment achieves 163.88% improvement compared with the TVM compiled
baseline in inference time for the compute-bound task and 194.98% for the
memory-bound task.
- Abstract(参考訳): ディープラーニングモデルにおける重みテンソルの定量化に関する学術文献では、推論遅延とメモリフットプリントを低減するために多くの論文がある。
TVMは重量を定量化し、低ビットの計算をサポートする。
量子化は一般的に推論時間を改善することが期待されているが、tvmでは8ビット量子化の性能は期待を満たさない。
通常、ディープラーニングモデルに8ビット量子化を適用する場合、完全精度推論時間の約50%を達成することが期待される。
しかし、この場合、量子化されたバージョンは、望まれるパフォーマンス向上を達成できないだけでなく、実際はパフォーマンスが悪くなり、推論時間が非量子化されたバージョンの約2倍遅くなってしまう。
本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の可能性を評価することにある。
計算バウンドとメモリバウンドの2種類のタスクの最適化について検討し,tvmにおける様々な最適化手法の詳細な比較を行った。
性能問題を特定することで,グラフ構築におけるバグに対処することで,量子化の改善に成功した。
さらに,複数の最適化戦略を分析し,最適な量子化結果を得る。
最良の実験は、計算バウンドタスクの推論時間におけるtvmコンパイルベースラインと比較して163.88%改善し、メモリバウンドタスクでは194.98%向上した。
関連論文リスト
- Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。
Int8量子化は計算コストと消費電力を40%削減する。
Int4量子化はこれらの指標をさらに60%改善する。
論文 参考訳(メタデータ) (2024-11-09T06:30:13Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Atom: Low-bit Quantization for Efficient and Accurate LLM Serving [7.126191142715184]
我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。
Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
論文 参考訳(メタデータ) (2023-10-29T18:33:05Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization [47.403304754934155]
固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。
提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T18:48:56Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。