Fugu-MT 論文翻訳(概要): Analyzing Quantization in TVM

論文の概要: Analyzing Quantization in TVM

arxiv url: http://arxiv.org/abs/2308.10905v1
Date: Sat, 19 Aug 2023 07:39:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 20:19:10.029051
Title: Analyzing Quantization in TVM
Title（参考訳）: TVMにおける量子化の解析
Authors: Mingfei Guo
Abstract要約: TVMは重量を定量化し、低ビット計算をサポートする。 8ビットの量子化は通常、全精度推論時間の約50%を達成することが期待されている。本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の機会を評価することにある。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There has been many papers in academic literature on quantizing weight tensors in deep learning models to reduce inference latency and memory footprint. TVM also has the ability to quantize weights and support low-bit computations. Although quantization is typically expected to improve inference time, in TVM, the performance of 8-bit quantization does not meet the expectations. Typically, when applying 8-bit quantization to a deep learning model, it is usually expected to achieve around 50% of the full-precision inference time. However, in this particular case, not only does the quantized version fail to achieve the desired performance boost, but it actually performs worse, resulting in an inference time that is about 2 times as slow as the non-quantized version. In this project, we thoroughly investigate the reasons behind the underperformance and assess the compatibility and optimization opportunities of 8-bit quantization in TVM. We discuss the optimization of two different types of tasks: computation-bound and memory-bound, and provide a detailed comparison of various optimization techniques in TVM. Through the identification of performance issues, we have successfully improved quantization by addressing a bug in graph building. Furthermore, we analyze multiple optimization strategies to achieve the optimal quantization result. The best experiment achieves 163.88% improvement compared with the TVM compiled baseline in inference time for the compute-bound task and 194.98% for the memory-bound task.
Abstract（参考訳）: ディープラーニングモデルにおける重みテンソルの定量化に関する学術文献では、推論遅延とメモリフットプリントを低減するために多くの論文がある。 TVMは重量を定量化し、低ビットの計算をサポートする。量子化は一般的に推論時間を改善することが期待されているが、tvmでは8ビット量子化の性能は期待を満たさない。通常、ディープラーニングモデルに8ビット量子化を適用する場合、完全精度推論時間の約50%を達成することが期待される。しかし、この場合、量子化されたバージョンは、望まれるパフォーマンス向上を達成できないだけでなく、実際はパフォーマンスが悪くなり、推論時間が非量子化されたバージョンの約2倍遅くなってしまう。本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の可能性を評価することにある。計算バウンドとメモリバウンドの2種類のタスクの最適化について検討し,tvmにおける様々な最適化手法の詳細な比較を行った。性能問題を特定することで,グラフ構築におけるバグに対処することで,量子化の改善に成功した。さらに,複数の最適化戦略を分析し,最適な量子化結果を得る。最良の実験は、計算バウンドタスクの推論時間におけるtvmコンパイルベースラインと比較して163.88%改善し、メモリバウンドタスクでは194.98%向上した。

関連論文リスト

Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文参考訳（メタデータ） (2025-05-20T17:26:12Z)
Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。 Int8量子化は計算コストと消費電力を40%削減する。 Int4量子化はこれらの指標をさらに60%改善する。
論文参考訳（メタデータ） (2024-11-09T06:30:13Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving [7.126191142715184]
我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。 Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
論文参考訳（メタデータ） (2023-10-29T18:33:05Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization [47.403304754934155]
固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
論文参考訳（メタデータ） (2022-02-10T18:48:56Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文参考訳（メタデータ） (2021-06-27T06:27:22Z)
Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文参考訳（メタデータ） (2020-11-04T15:41:47Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)
Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文参考訳（メタデータ） (2020-08-12T06:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。