論文の概要: HiKonv: Maximizing the Throughput of Quantized Convolution With Novel Bit-wise Management and Computation
- arxiv url: http://arxiv.org/abs/2208.00763v2
- Date: Sun, 12 May 2024 09:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 02:01:31.847211
- Title: HiKonv: Maximizing the Throughput of Quantized Convolution With Novel Bit-wise Management and Computation
- Title(参考訳): HiKonv: 量子畳み込みのスループットを、新しいビット単位の管理と計算で最大化する
- Authors: Yao Chen, Junhao Pan, Xinheng Liu, Jinjun Xiong, Deming Chen,
- Abstract要約: CNNの量子化は、低ビット幅のデータ表現による計算とストレージのコスト削減を意図して、大きな進歩を見せている。
しかし、既存の全ビット幅処理ユニットが、様々な量子化ビット幅の下での畳み込みにおいて、はるかに高いスループットを実現するためにどのように利用できるかについて、体系的な研究は行われていない。
低ビット幅の量子化データ入力を持つ処理ユニットに対して,畳み込みのスループットを最大化する統一解HiKonvを提案する。
- 参考スコア(独自算出の注目度): 25.330002874607157
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Quantization for CNN has shown significant progress with the intention of reducing the cost of computation and storage with low-bitwidth data representations. There are, however, no systematic studies on how an existing full-bitwidth processing unit, such as ALU in CPUs and DSP in FPGAs, can be better utilized to deliver significantly higher computation throughput for convolution under various quantized bitwidths. In this study, we propose HiKonv, a unified solution that maximizes the throughput of convolution on a given underlying processing unit with low-bitwidth quantized data inputs through novel bit-wise management and parallel computation. We establish theoretical framework and performance models using a full-bitwidth multiplier for highly parallelized low-bitwidth convolution, and demonstrate new breakthroughs for high-performance computing in this critical domain. For example, a single 32-bit processing unit in CPU can deliver 128 binarized convolution operations (multiplications and additions) and 13 4-bit convolution operations with a single multiplication instruction, and a single 27x18 multiplier in the FPGA DSP can deliver 60, 8 or 2 convolution operations with 1, 4 or 8-bit inputs in one clock cycle. We demonstrate the effectiveness of HiKonv on both CPU and FPGA. On CPU, HiKonv outperforms the baseline implementation with 1 to 8-bit inputs and provides up to 7.6x and 1.4x performance improvements for 1-D convolution, and performs 2.74x and 3.19x over the baseline implementation for 4-bit signed and unsigned data inputs for 2-D convolution. On FPGA, HiKonv solution enables a single DSP to process multiple convolutions with a shorter processing latency. For binarized input, each DSP with HiKonv is equivalent up to 76.6 LUTs. Compared to the DAC-SDC 2020 champion model, HiKonv achieves a 2.37x throughput improvement and 2.61x DSP efficiency improvement, respectively.
- Abstract(参考訳): CNNの量子化は、低ビット幅のデータ表現による計算とストレージのコスト削減を意図して、大きな進歩を見せている。
しかし、CPUの ALU やFPGAの DSP など、既存のフルビット幅処理ユニットが、様々な量子化ビット幅での畳み込みにおいて、より高い計算スループットを実現するために、どのように利用できるかという体系的な研究は存在しない。
本研究では,新しいビットワイド管理と並列計算により,低ビット幅の量子化データ入力を持つ処理ユニット上での畳み込みのスループットを最大化する統一解であるHiKonvを提案する。
我々は,高並列化低ビット幅畳み込みのための全ビット幅乗算器を用いた理論的枠組みと性能モデルを構築し,この臨界領域における高性能コンピューティングの新しいブレークスルーを実証する。
例えば、CPU内の単一の32ビット処理ユニットは、128の双項化畳み込み演算(乗算と加算)と13の4ビットの畳み込み演算を1つの乗算命令で行うことができ、FPGA DSP内の1つの27x18乗算器は、1つのクロックサイクルで1,4,8ビット入力で60,8,2の畳み込み演算を配信できる。
我々は、CPUとFPGAの両方におけるHiKonvの有効性を示す。
CPUでは、HiKonvは1から8ビットの入力でベースライン実装を上回り、1-D畳み込みでは最大7.6倍と1.4倍の性能向上を実現し、4-D畳み込みでは2.74倍と3.19倍の性能向上を実現している。
FPGAでは、HiKonvソリューションにより、1つのDSPがより短い処理レイテンシで複数の畳み込みを処理することができる。
バイナライズされた入力では、HiKonv を持つ各 DSP は 76.6 LUT に等しい。
DAC-SDC 2020のチャンピオンモデルと比較して、HiKonvは2.37倍のスループット向上と2.61倍のDSP効率向上を実現している。
関連論文リスト
- QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Advancing Direct Convolution using Convolution Slicing Optimization and
ISA Extensions [1.2006896500048552]
畳み込みは、機械学習モデル推論のために実行しなければならない最も計算集約的な操作の1つである。
本稿では,MLIR/LLVMコード生成ツールチェーンをベースとした直接畳み込みアルゴリズムであるSConvを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:23:39Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - HiKonv: High Throughput Quantized Convolution With Novel Bit-wise
Management and Computation [20.25064154607341]
低ビット幅の量子化データ入力を処理するために、所定の処理ユニットの計算スループットを最大化するHiKonvを提案する。
我々は高並列化低ビット幅畳み込みのための全ビット幅乗算器を用いて理論的性能境界を確立する。
4ビットに量子化された畳み込み層では、HiKonvはCPU上でC++を使用するベースライン実装よりも3.17倍のレイテンシ向上を実現している。
論文 参考訳(メタデータ) (2021-12-28T03:03:39Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。