論文の概要: Efficient Execution of Quantized Deep Learning Models: A Compiler
Approach
- arxiv url: http://arxiv.org/abs/2006.10226v1
- Date: Thu, 18 Jun 2020 01:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:36:23.026405
- Title: Efficient Execution of Quantized Deep Learning Models: A Compiler
Approach
- Title(参考訳): 量子化ディープラーニングモデルの効率的な実行:コンパイラアプローチ
- Authors: Animesh Jain, Shoubhik Bhattacharya, Masahiro Masuda, Vin Sharma and
Yida Wang
- Abstract要約: 多くのアプリケーションがディープラーニングモデルを使用して予測関数を実装している。
TFLite、MXNet、PyTorchといったディープラーニングフレームワークは、開発者がわずかの精度でモデルを定量化できる。
様々なハードウェアプラットフォーム上で量子化されたモデルを実行するのに適していない。
- 参考スコア(独自算出の注目度): 6.616902691349208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing number of applications implement predictive functions using deep
learning models, which require heavy use of compute and memory. One popular
technique for increasing resource efficiency is 8-bit integer quantization, in
which 32-bit floating point numbers (fp32) are represented using shorter 8-bit
integer numbers. Although deep learning frameworks such as TensorFlow, TFLite,
MXNet, and PyTorch enable developers to quantize models with only a small drop
in accuracy, they are not well suited to execute quantized models on a variety
of hardware platforms. For example, TFLite is optimized to run inference on ARM
CPU edge devices but it does not have efficient support for Intel CPUs and
Nvidia GPUs. In this paper, we address the challenges of executing quantized
deep learning models on diverse hardware platforms by proposing an augmented
compiler approach. A deep learning compiler such as Apache TVM can enable the
efficient execution of model from various frameworks on various targets. Many
deep learning compilers today, however, are designed primarily for fp32
computation and cannot optimize a pre-quantized INT8 model. To address this
issue, we created a new dialect called Quantized Neural Network (QNN) that
extends the compiler's internal representation with a quantization context.
With this quantization context, the compiler can generate efficient code for
pre-quantized models on various hardware platforms. As implemented in Apache
TVM, we observe that the QNN-augmented deep learning compiler achieves speedups
of 2.35x, 2.15x, 1.35x and 1.40x on Intel Xeon Cascade Lake CPUs, Nvidia Tesla
T4 GPUs, ARM Raspberry Pi3 and Pi4 respectively against well optimized fp32
execution, and comparable performance to the state-of-the-art
framework-specific solutions.
- Abstract(参考訳): 多くのアプリケーションがディープラーニングモデルを使用して予測関数を実装しており、計算とメモリを多用する必要がある。
資源効率を向上させる一般的な手法は8ビット整数量子化であり、32ビット浮動小数点数 (fp32) はより短い8ビット整数数で表される。
TensorFlow、TFLite、MXNet、PyTorchといったディープラーニングフレームワークは、精度をわずかに低下させるだけでモデルを定量化できるが、さまざまなハードウェアプラットフォーム上での量子化モデルの実行には適していない。
例えば、TFLiteはARM CPUエッジデバイスで推論を実行するように最適化されているが、Intel CPUとNvidia GPUを効率的にサポートしていない。
本稿では,拡張コンパイラアプローチを提案することにより,多様なハードウェアプラットフォーム上での量子化ディープラーニングモデル実行の課題に対処する。
Apache TVMのようなディープラーニングコンパイラは、さまざまなフレームワークからさまざまなターゲットに対するモデルの効率的な実行を可能にする。
しかし、今日のディープラーニングコンパイラの多くは、主にfp32計算用に設計されており、事前量子化されたINT8モデルを最適化することはできない。
この問題に対処するため、我々はQuantized Neural Network(QNN)と呼ばれる新しい方言を作成し、量子化コンテキストでコンパイラの内部表現を拡張する。
この量子化コンテキストにより、コンパイラは様々なハードウェアプラットフォーム上で事前量子化モデルの効率的なコードを生成することができる。
Apache TVMに実装されているように、QNNの拡張されたディープラーニングコンパイラは、Intel Xeon Cascade Lake CPU、Nvidia Tesla T4 GPU、ARM Raspberry Pi3、Pi4の2.35x、2.15x、1.35x、1.40xのスピードアップを達成する。
関連論文リスト
- DeepliteRT: Computer Vision at the Edge [40.44316688055993]
DeepliteRTはARMデバイス上での超低ビットモデルのコンパイル、チューニング、推論のためのエンドツーエンドソリューションである。
最適化された32ビット浮動小数点、8ビット整数、2ビットベースラインに対する分類と検出モデルにおけるDeepliteRTの性能を解析する。
論文 参考訳(メタデータ) (2023-09-19T18:58:38Z) - Compressed Real Numbers for AI: a case-study using a RISC-V CPU [2.0516276923852415]
我々は、機械学習アプリケーションにおいて、バイナリ32数値を圧縮する興味深い結果を得た2種類のフォーマットに焦点を当てる。
本稿では,計算直前に浮動小数点のテンソルを分解する方法を提案する。
論文 参考訳(メタデータ) (2023-09-11T07:54:28Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization,
Quantizations, Memory Optimizations, and More [26.748770505062378]
SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装である。
SLIDE の計算によって AVX (Advanced Vector Extensions-512) によるベクトル化が可能となることを示す。
我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。
論文 参考訳(メタデータ) (2021-03-06T02:13:43Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。