論文の概要: HiKonv: Maximizing the Throughput of Quantized Convolution With Novel
Bit-wise Management and Computation
- arxiv url: http://arxiv.org/abs/2208.00763v1
- Date: Fri, 22 Jul 2022 04:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-07 14:35:14.247937
- Title: HiKonv: Maximizing the Throughput of Quantized Convolution With Novel
Bit-wise Management and Computation
- Title(参考訳): HiKonv: 量子畳み込みのスループットを、新しいビット単位の管理と計算で最大化する
- Authors: Yao Chen, Junhao Pan, Xinheng Liu, Jinjun Xiong and Deming Chen
- Abstract要約: CNNの量子化は、低ビット幅のデータ表現による計算とストレージのコスト削減を意図して、大きな進歩を見せている。
しかし、既存の全ビット幅処理ユニットが、様々な量子化ビット幅の下での畳み込みにおいて、はるかに高いスループットを実現するためにどのように利用できるかについて、体系的な研究は行われていない。
低ビット幅の量子化データ入力を持つ処理ユニットに対して,畳み込みのスループットを最大化する統一解HiKonvを提案する。
- 参考スコア(独自算出の注目度): 31.56778291074596
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Quantization for CNN has shown significant progress with the intention of
reducing the cost of computation and storage with low-bitwidth data
representations. There are, however, no systematic studies on how an existing
full-bitwidth processing unit, such as ALU in CPUs and DSP in FPGAs, can be
better utilized to deliver significantly higher computation throughput for
convolution under various quantized bitwidths. In this study, we propose
HiKonv, a unified solution that maximizes the throughput of convolution on a
given underlying processing unit with low-bitwidth quantized data inputs
through novel bit-wise management and parallel computation. We establish
theoretical framework and performance models using a full-bitwidth multiplier
for highly parallelized low-bitwidth convolution, and demonstrate new
breakthroughs for high-performance computing in this critical domain. For
example, a single 32-bit processing unit in CPU can deliver 128 binarized
convolution operations (multiplications and additions) and 13 4-bit convolution
operations with a single multiplication instruction, and a single 27x18
multiplier in the FPGA DSP can deliver 60, 8 or 2 convolution operations with
1, 4 or 8-bit inputs in one clock cycle. We demonstrate the effectiveness of
HiKonv on both CPU and FPGA. On CPU, HiKonv outperforms the baseline
implementation with 1 to 8-bit inputs and provides up to 7.6x and 1.4x
performance improvements for 1-D convolution, and performs 2.74x and 3.19x over
the baseline implementation for 4-bit signed and unsigned data inputs for 2-D
convolution. On FPGA, HiKonv solution enables a single DSP to process multiple
convolutions with a shorter processing latency. For binarized input, each DSP
with HiKonv is equivalent up to 76.6 LUTs. Compared to the DAC-SDC 2020
champion model, HiKonv achieves a 2.37x throughput improvement and 2.61x DSP
efficiency improvement, respectively.
- Abstract(参考訳): CNNの量子化は、低ビット幅のデータ表現による計算とストレージのコスト削減を意図して大きく進歩している。
しかし、CPUの ALU やFPGAの DSP など、既存のフルビット幅処理ユニットが、様々な量子化ビット幅での畳み込みにおいて、より高い計算スループットを実現するために、どのように利用できるかという体系的な研究はない。
本研究では,新しいビットワイド管理と並列計算により,低ビット幅の量子化データ入力を持つ処理ユニット上での畳み込みのスループットを最大化する統一解HiKonvを提案する。
我々は,高並列化低ビット幅畳み込みのためのフルビット幅乗算器を用いた理論的枠組みと性能モデルを確立し,この臨界領域における高性能コンピューティングの新しいブレークスルーを示す。
例えば、cpu内の1つの32ビット処理ユニットは、128の2値化畳み込み操作(乗算と加算)と13の4ビット畳み込み操作を1つの乗算命令で処理でき、fpga dspの1つの27x18乗算器は1クロックサイクルで1,4,8ビット入力で60,8,2の畳み込み操作を実行できる。
我々は、CPUとFPGAの両方におけるHiKonvの有効性を示す。
CPUでは、HiKonvは1から8ビットの入力でベースライン実装を上回り、1-D畳み込みでは最大7.6倍と1.4倍の性能向上を提供し、4-D畳み込みでは2.74倍と3.19倍の性能向上を実現している。
FPGAでは、HiKonvソリューションにより、1つのDSPがより短い処理レイテンシで複数の畳み込みを処理することができる。
バイナライズされた入力では、HiKonv を持つ各 DSP は 76.6 LUT に等しい。
DAC-SDC 2020のチャンピオンモデルと比較して、HiKonvは2.37倍のスループット向上と2.61倍のDSP効率向上を実現している。
関連論文リスト
- QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Advancing Direct Convolution using Convolution Slicing Optimization and
ISA Extensions [1.2006896500048552]
畳み込みは、機械学習モデル推論のために実行しなければならない最も計算集約的な操作の1つである。
本稿では,MLIR/LLVMコード生成ツールチェーンをベースとした直接畳み込みアルゴリズムであるSConvを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:23:39Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - HiKonv: High Throughput Quantized Convolution With Novel Bit-wise
Management and Computation [20.25064154607341]
低ビット幅の量子化データ入力を処理するために、所定の処理ユニットの計算スループットを最大化するHiKonvを提案する。
我々は高並列化低ビット幅畳み込みのための全ビット幅乗算器を用いて理論的性能境界を確立する。
4ビットに量子化された畳み込み層では、HiKonvはCPU上でC++を使用するベースライン実装よりも3.17倍のレイテンシ向上を実現している。
論文 参考訳(メタデータ) (2021-12-28T03:03:39Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。