論文の概要: Automated Backend-Aware Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2103.14949v1
- Date: Sat, 27 Mar 2021 17:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:05:45.244233
- Title: Automated Backend-Aware Post-Training Quantization
- Title(参考訳): 自動バックエンドアウェアトレーニング後の量子化
- Authors: Ziheng Jiang, Animesh Jain, Andrew Liu, Josh Fromm, Chengqian Ma,
Tianqi Chen, Luis Ceze
- Abstract要約: 量子化は、リソース要件を削減し、ニューラルネットワークのデプロイメントのパフォーマンスを向上させるための重要な技術です。
x86 CPU、NVIDIA GPU、ARM CPU、アクセラレータなどの異なるハードウェアバックエンドは、量子化されたネットワークに対して異なる実装を要求する可能性がある。
我々は、HAGOと呼ばれる自動トレーニング後量子化フレームワークでこの問題に対処する。
- 参考スコア(独自算出の注目度): 17.099811769734483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a key technique to reduce the resource requirement and
improve the performance of neural network deployment. However, different
hardware backends such as x86 CPU, NVIDIA GPU, ARM CPU, and accelerators may
demand different implementations for quantized networks. This diversity calls
for specialized post-training quantization pipelines to built for each hardware
target, an engineering effort that is often too large for developers to keep up
with. We tackle this problem with an automated post-training quantization
framework called HAGO. HAGO provides a set of general quantization graph
transformations based on a user-defined hardware specification and implements a
search mechanism to find the optimal quantization strategy while satisfying
hardware constraints for any model. We observe that HAGO achieves speedups of
2.09x, 1.97x, and 2.48x on Intel Xeon Cascade Lake CPUs, NVIDIA Tesla T4 GPUs,
ARM Cortex-A CPUs on Raspberry Pi4 relative to full precision respectively,
while maintaining the highest reported post-training quantization accuracy in
each case.
- Abstract(参考訳): 量子化は、リソース要件を減らし、ニューラルネットワークデプロイメントのパフォーマンスを改善するための重要なテクニックである。
しかし、x86 CPU、NVIDIA GPU、ARM CPU、アクセラレータなどの異なるハードウェアバックエンドは、量子化されたネットワークに対する異なる実装を要求する可能性がある。
この多様性は、各ハードウェアターゲットに対して特別なトレーニング後の量子化パイプラインを構築することを求めている。
我々は、HAGOと呼ばれる自動トレーニング後量子化フレームワークでこの問題に取り組む。
HAGOは、ユーザ定義のハードウェア仕様に基づく一般的な量子化グラフ変換のセットを提供し、任意のモデルのハードウェア制約を満たしながら最適な量子化戦略を見つけるための検索メカニズムを実装している。
HAGOは,Intel Xeon Cascade Lake CPU,NVIDIA Tesla T4 GPU,ARM Cortex-A CPU,Raspberry Pi4上でそれぞれ2.9倍,1.97倍,2.48倍の高速化を実現し,各ケースで最高のトレーニング後量子化精度を維持した。
関連論文リスト
- Large-scale quantum approximate optimization on non-planar graphs with machine learning noise mitigation [0.46040036610482665]
誤差軽減は、ノイズの多いデバイスが有意義に実行できる量子回路のサイズを拡大する。
機械学習に基づく誤差軽減により最大40ノードの非平面ランダム正規グラフ上で量子近似最適化アルゴリズム(QAOA)を示す。
論文 参考訳(メタデータ) (2023-07-26T18:00:07Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - 2QAN: A quantum compiler for 2-local qubit Hamiltonian simulation
algorithms [0.76146285961466]
量子回路を2局所量子ビットハミルトニアンシミュレーション問題に最適化する2QANというコンパイラを開発した。
2QANは、挿入されたSWAPゲートの数を11.5倍に減らし、ハードウェアゲートのオーバーヘッドを68.5倍に減らし、回路深さのオーバーヘッドを21倍に減らすことができる。
論文 参考訳(メタデータ) (2021-08-04T15:03:47Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。