論文の概要: HiKonv: High Throughput Quantized Convolution With Novel Bit-wise
Management and Computation
- arxiv url: http://arxiv.org/abs/2112.13972v1
- Date: Tue, 28 Dec 2021 03:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 16:13:34.575589
- Title: HiKonv: High Throughput Quantized Convolution With Novel Bit-wise
Management and Computation
- Title(参考訳): HiKonv:bit-wise Management and Computationによる高スループット量子化コンボリューション
- Authors: Xinheng Liu, Yao Chen, Prakhar Ganesh, Junhao Pan, Jinjun Xiong,
Deming Chen
- Abstract要約: 低ビット幅の量子化データ入力を処理するために、所定の処理ユニットの計算スループットを最大化するHiKonvを提案する。
我々は高並列化低ビット幅畳み込みのための全ビット幅乗算器を用いて理論的性能境界を確立する。
4ビットに量子化された畳み込み層では、HiKonvはCPU上でC++を使用するベースライン実装よりも3.17倍のレイテンシ向上を実現している。
- 参考スコア(独自算出の注目度): 20.25064154607341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quantization for Convolutional Neural Network (CNN) has shown significant
progress with the intention of reducing the cost of computation and storage
with low-bitwidth data inputs. There are, however, no systematic studies on how
an existing full-bitwidth processing unit, such as CPUs and DSPs, can be better
utilized to carry out significantly higher computation throughput for
convolution under various quantized bitwidths. In this study, we propose
HiKonv, a unified solution that maximizes the compute throughput of a given
underlying processing unit to process low-bitwidth quantized data inputs
through novel bit-wise parallel computation. We establish theoretical
performance bounds using a full-bitwidth multiplier for highly parallelized
low-bitwidth convolution, and demonstrate new breakthroughs for
high-performance computing in this critical domain. For example, a single
32-bit processing unit can deliver 128 binarized convolution operations
(multiplications and additions) under one CPU instruction, and a single 27x18
DSP core can deliver eight convolution operations with 4-bit inputs in one
cycle. We demonstrate the effectiveness of HiKonv on CPU and FPGA for both
convolutional layers or a complete DNN model. For a convolutional layer
quantized to 4-bit, HiKonv achieves a 3.17x latency improvement over the
baseline implementation using C++ on CPU. Compared to the DAC-SDC 2020 champion
model for FPGA, HiKonv achieves a 2.37x throughput improvement and 2.61x DSP
efficiency improvement, respectively.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の量子化は、低ビット幅のデータ入力による計算とストレージのコスト削減を意図して、大きな進歩を見せている。
しかし、CPUやDSPのような既存の全ビット幅処理ユニットがよりうまく利用でき、様々な量子化ビット幅での畳み込みの計算スループットを大幅に向上させることができるという体系的な研究はない。
本研究では,与えられた処理ユニットの計算スループットを最大化し,低ビット幅量子化データ入力を新しいビット単位並列計算で処理する統一解であるhikonvを提案する。
我々は,高並列化低ビット幅畳み込みのためのフルビット幅乗算器を用いた理論的性能境界を確立し,この臨界領域における高性能コンピューティングの新しいブレークスルーを示す。
例えば、1つの32ビット処理ユニットは1つのCPU命令で128のバイナリ化された畳み込み演算(多重化と加算)を配信でき、1つの27x18 DSPコアは1サイクルで4ビット入力を持つ8つの畳み込み演算を配信できる。
畳み込み層と完全DNNモデルの両方において、CPUおよびFPGA上でのHiKonvの有効性を示す。
4ビットに量子化された畳み込み層では、HiKonvはCPU上でC++を使用するベースライン実装よりも3.17倍のレイテンシ向上を実現している。
FPGAのDAC-SDC 2020チャンピオンモデルと比較して、HiKonvは2.37倍のスループット向上と2.61倍のDSP効率向上を実現している。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - HiKonv: Maximizing the Throughput of Quantized Convolution With Novel Bit-wise Management and Computation [25.330002874607157]
CNNの量子化は、低ビット幅のデータ表現による計算とストレージのコスト削減を意図して、大きな進歩を見せている。
しかし、既存の全ビット幅処理ユニットが、様々な量子化ビット幅の下での畳み込みにおいて、はるかに高いスループットを実現するためにどのように利用できるかについて、体系的な研究は行われていない。
低ビット幅の量子化データ入力を持つ処理ユニットに対して,畳み込みのスループットを最大化する統一解HiKonvを提案する。
論文 参考訳(メタデータ) (2022-07-22T04:31:57Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Quantization of Deep Neural Networks for Accumulator-constrained
Processors [2.8489574654566674]
本稿では,大規模な蓄積レジスタを持たないプラットフォームに対して,ニューラルネットワーク(ANN)量子化手法を提案する。
量子化問題をアキュムレータサイズの関数として定式化し、入力データと重みのビット幅を最大化することでモデルの精度を最大化する。
我々は,CIFAR-10およびILSVRC2012画像分類ベンチマークにおいて,浮動小数点ベースラインの1%以内の分類精度が得られることを示した。
論文 参考訳(メタデータ) (2020-04-24T14:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。