論文の概要: Accelerating PoT Quantization on Edge Devices
- arxiv url: http://arxiv.org/abs/2409.20403v1
- Date: Mon, 30 Sep 2024 15:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 22:52:59.215882
- Title: Accelerating PoT Quantization on Edge Devices
- Title(参考訳): エッジデバイス上でのPoT量子化の高速化
- Authors: Rappy Saha, Jude Haris, José Cano,
- Abstract要約: パワー・オブ・ツー(PoT)量子化のような一様でない量子化は、一様量子化よりもデータ分布によく一致する。
エッジデバイス上でPoT量子化されたDeep Neural Networkを高速化するための既存のパイプラインは、オープンソースではない。
本稿では,リソース制約のあるエッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のための,オープンソースのパイプラインであるPoTAccを提案する。
- 参考スコア(独自算出の注目度): 0.9558392439655012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-uniform quantization, such as power-of-two (PoT) quantization, matches data distributions better than uniform quantization, which reduces the quantization error of Deep Neural Networks (DNNs). PoT quantization also allows bit-shift operations to replace multiplications, but there are limited studies on the efficiency of shift-based accelerators for PoT quantization. Furthermore, existing pipelines for accelerating PoT-quantized DNNs on edge devices are not open-source. In this paper, we first design shift-based processing elements (shift-PE) for different PoT quantization methods and evaluate their efficiency using synthetic benchmarks. Then we design a shift-based accelerator using our most efficient shift-PE and propose PoTAcc, an open-source pipeline for end-to-end acceleration of PoT-quantized DNNs on resource-constrained edge devices. Using PoTAcc, we evaluate the performance of our shift-based accelerator across three DNNs. On average, it achieves a 1.23x speedup and 1.24x energy reduction compared to a multiplier-based accelerator, and a 2.46x speedup and 1.83x energy reduction compared to CPU-only execution. Our code is available at https://github.com/gicLAB/PoTAcc
- Abstract(参考訳): パワー・オブ・ツー(PoT)量子化のような非一様量子化は、一様量子化よりも優れたデータ分布と一致し、ディープニューラルネットワーク(DNN)の量子化誤差を低減する。
PoT量子化はまた、ビットシフト演算を乗法に置き換えることを可能にするが、PoT量子化のためのシフトベースの加速器の効率に関する限られた研究がある。
さらに、エッジデバイス上でPoT量子化されたDNNを高速化するための既存のパイプラインは、オープンソースではない。
本稿では,まず,異なるPoT量子化法のためのシフトベース処理要素(shift-PE)を設計し,その効率をベンチマークを用いて評価する。
次に、最も効率的なシフトPEを用いてシフトベースのアクセラレータを設計し、リソース制約エッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のためのオープンソースのパイプラインであるPoTAccを提案する。
また,PoTAccを用いて,3つのDNN間でのシフトベースアクセラレータの性能評価を行った。
平均すると、乗算器ベースのアクセラレータと比べて1.23倍のスピードアップと1.24倍のエネルギー削減、CPUのみの実行に比べて2.46倍のスピードアップと1.83倍のエネルギー削減を実現している。
私たちのコードはhttps://github.com/gicLAB/PoTAccで利用可能です。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-30T10:26:36Z) - PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。
提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。
PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文 参考訳(メタデータ) (2024-05-25T02:02:08Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Term Revealing: Furthering Quantization at Run Time on Quantized DNNs [9.240133036531402]
本稿では,従来の量子化手法で既に定量化されているディープニューラルネットワーク(DNN)の性能向上のために,実行時の量子化を促進させる新しい手法である Term Revealing (TR) を提案する。
TRは値のバイナリ表現において2項のパワーで動作する。
本稿では、少数の制御ビットを用いて従来の量子化とTR対応量子化を無視可能な遅延で切り替えるFPGAの実装を示す。
論文 参考訳(メタデータ) (2020-07-13T14:03:10Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。