論文の概要: OHQ: On-chip Hardware-aware Quantization
- arxiv url: http://arxiv.org/abs/2309.01945v4
- Date: Thu, 8 Feb 2024 02:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 11:34:56.927982
- Title: OHQ: On-chip Hardware-aware Quantization
- Title(参考訳): OHQ:オンチップのハードウェア対応量子化
- Authors: Wei Huang, Haotong Qin, Yangdong Liu, Jingzhuo Liang, Yulun Zhang,
Ying Li, Xianglong Liu
- Abstract要約: 我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
- 参考スコア(独自算出の注目度): 55.62734488492329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization emerges as one of the most promising approaches for deploying
advanced deep models on resource-constrained hardware. Mixed-precision
quantization leverages multiple bit-width architectures to unleash the accuracy
and efficiency potential of quantized models. However, existing mixed-precision
quantization suffers exhaustive search space that causes immense computational
overhead. The quantization process thus relies on separate high-performance
devices rather than locally, which also leads to a significant gap between the
considered hardware metrics and the real deployment. In this paper, we propose
an On-chip Hardware-aware Quantization (OHQ) framework that performs
hardware-aware mixed-precision quantization without accessing online devices.
First, we construct the On-chip Quantization Awareness (OQA) pipeline, enabling
perceive the actual efficiency metrics of the quantization operator on the
hardware. Second, we propose Mask-guided Quantization Estimation (MQE)
technique to efficiently estimate the accuracy metrics of operators under the
constraints of on-chip-level computing power. By synthesizing network and
hardware insights through linear programming, we obtain optimized bit-width
configurations. Notably, the quantization process occurs on-chip entirely
without any additional computing devices and data access. We demonstrate
accelerated inference after quantization for various architectures and
compression ratios, achieving 70% and 73% accuracy for ResNet-18 and
MobileNetV3, respectively. OHQ improves latency by 15~30% compared to INT8 on
deployment.
- Abstract(参考訳): 量子化は、リソース制約のあるハードウェアに高度なディープモデルをデプロイするための最も有望なアプローチの1つとして現れます。
mixed-precision quantizationは、複数のビット幅アーキテクチャを活用して、量子化モデルの精度と効率性を解き放つ。
しかし、既存の混合精度量子化は、膨大な計算オーバーヘッドを引き起こす網羅的な探索空間に苦しむ。
したがって、量子化プロセスはローカルではなく別の高性能デバイスに依存しており、ハードウェアメトリクスと実際のデプロイメントの間に大きなギャップが生じる。
本稿では,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア対応量子化(OHQ)フレームワークを提案する。
まず、オンチップ量子化認識(OQA)パイプラインを構築し、ハードウェア上の量子化演算子の実際の効率指標を知覚する。
第2に,オンチップレベルの計算能力の制約下で演算子の精度を効率的に推定するMask-guided Quantization Estimation (MQE) 手法を提案する。
線形計画によるネットワークとハードウェアの洞察を合成することにより、最適化されたビット幅構成を得る。
特に、量子化プロセスは、追加のコンピューティングデバイスやデータアクセスなしで、オンチップで完全に実行される。
ResNet-18とMobileNetV3では,それぞれ70%,73%の精度を実現した。
OHQは、デプロイメント時のINT8と比較して、レイテンシを15~30%改善する。
関連論文リスト
- Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z) - Quantum circuit architecture search on a superconducting processor [56.04169357427682]
変分量子アルゴリズム(VQA)は、ファイナンス、機械学習、化学といった様々な分野において、証明可能な計算上の優位性を得るための強力な証拠を示している。
しかし、現代のVQAで利用されるアンザッツは、表現性と訓練性の間のトレードオフのバランスをとることができない。
8量子ビット超伝導量子プロセッサ上でVQAを強化するために,効率的な自動アンサッツ設計技術を適用した最初の実証実験を実証する。
論文 参考訳(メタデータ) (2022-01-04T01:53:42Z) - HPTQ: Hardware-Friendly Post Training Quantization [6.515659231669797]
ハードウェアフレンドリーなポストトレーニング量子化(HPTQ)フレームワークを導入する。
分類,オブジェクト検出,セマンティックセグメンテーション,ポーズ推定の4つのタスクについて大規模な研究を行う。
ハードウェアフレンドリーな制約の下で競争結果が得られることを示す実験を行った。
論文 参考訳(メタデータ) (2021-09-19T12:45:01Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z) - HMQ: Hardware Friendly Mixed Precision Quantization Block for CNNs [7.219077740523684]
ハードウェアフレンドリー混合精密量子化ブロック(HMQ)について紹介する。
HMQは、Gumbel-Softmax推定器を2組の量子化パラメータの滑らかな推定器に再利用する混合精密量子化ブロックである。
CIFAR10とImageNetで訓練された分類モデルの定量化にHMQを適用する。
論文 参考訳(メタデータ) (2020-07-20T09:02:09Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。