論文の概要: Development of Quantized DNN Library for Exact Hardware Emulation
- arxiv url: http://arxiv.org/abs/2106.08892v1
- Date: Tue, 15 Jun 2021 17:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:40:40.513530
- Title: Development of Quantized DNN Library for Exact Hardware Emulation
- Title(参考訳): ハードウェアエミュレーションのための量子化DNNライブラリの開発
- Authors: Masato Kiyama and Motoki Amagasaki and Masahiro Iida
- Abstract要約: 量子化は、AIチップのようなエッジデバイス上でDeep Neural Network(DNN)を実行する際の実行時間を短縮し、電力を節約するために使用される。
我々は、ハードウェアと全く同じ振る舞いで量子化されたDNNを実行するライブラリであるPyParchを開発した。
- 参考スコア(独自算出の注目度): 0.17188280334580192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is used to speed up execution time and save power when runnning
Deep neural networks (DNNs) on edge devices like AI chips. To investigate the
effect of quantization, we need performing inference after quantizing the
weights of DNN with 32-bit floating-point precision by a some bit width, and
then quantizing them back to 32-bit floating-point precision. This is because
the DNN library can only handle floating-point numbers. However, the accuracy
of the emulation does not provide accurate precision. We need accurate
precision to detect overflow in MAC operations or to verify the operation on
edge de vices. We have developed PyParch, a DNN library that executes quantized
DNNs (QNNs) with exactly the same be havior as hardware. In this paper, we
describe a new proposal and implementation of PyParch. As a result of the
evaluation, the accuracy of QNNs with arbitrary bit widths can be estimated for
la rge and complex DNNs such as YOLOv5, and the overflow can be detected. We
evaluated the overhead of the emulation time and found that it was 5.6 times
slower for QNN and 42
times slower for QNN with overflow detection compared to the normal DNN
execution time.
- Abstract(参考訳): 量子化は、AIチップのようなエッジデバイス上でDeep Neural Network(DNN)を実行する際の実行時間の短縮と省電力に使用される。
量子化の効果を調べるには,32ビット浮動小数点精度でdnnの重みを数ビット幅で量子化し,それを32ビット浮動小数点精度に量子化した後,推定を行う必要がある。
これはDNNライブラリが浮動小数点数しか処理できないためである。
しかし、エミュレーションの精度は正確な精度を与えていない。
MAC操作のオーバーフローの検出やエッジデバイス操作の検証には,正確な精度が必要である。
我々は、ハードウェアと全く同じ振る舞いで量子化されたDNN(QNN)を実行するDNNライブラリであるPyParchを開発した。
本稿では,PyParchの新たな提案と実装について述べる。
評価の結果,任意のビット幅を持つQNNとYOLOv5のような複雑なDNNの精度を推定でき,オーバーフローを検出することができる。
我々はエミュレーション時間のオーバーヘッドを評価し,QNNでは5.6倍,QNNでは42倍,オーバーフロー検出では通常のDNNの実行時間よりも42倍遅かった。
関連論文リスト
- A Converting Autoencoder Toward Low-latency and Energy-efficient DNN
Inference at the Edge [4.11949030493552]
エッジデバイスに適した低レイテンシかつエネルギー効率のDeep Neural Network (DNN) 推論フレームワークであるCBNetを提案する。
変換」オートエンコーダを使用して、ハードイメージを簡単なものに効率よく変換する。
CBNetは推論遅延の4.8倍のスピードアップと79%のエネルギー消費の削減を実現している。
論文 参考訳(メタデータ) (2024-03-11T08:13:42Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Automated machine learning for borehole resistivity measurements [0.0]
ディープニューラルネットワーク(DNN)は、ボアホール比抵抗測定の反転のためのリアルタイムソリューションを提供する。
非常に大きなDNNを使って演算子を近似することができるが、かなりの訓練時間を必要とする。
本研究では,DNNの精度とサイズを考慮したスコアリング機能を提案する。
論文 参考訳(メタデータ) (2022-07-20T12:27:22Z) - PocketNN: Integer-only Training and Inference of Neural Networks via
Direct Feedback Alignment and Pocket Activations in Pure C++ [10.508187462682308]
深層学習アルゴリズムは浮動小数点実数を用いて実装される。
これは、専用の浮動小数点ユニット(FPU)を持たないローエンドデバイスに実装する際の障害となる。
論文 参考訳(メタデータ) (2022-01-08T16:52:34Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - A Framework for Semi-Automatic Precision and Accuracy Analysis for Fast
and Rigorous Deep Learning [1.5863809575305419]
多くの論文は、ディープニューラルネットワーク(DNN)が驚くほど低い精度で正常に動作可能であることを実験的に観察している。
本論文は、DNNのFP精度が低いFP精度のために高いままである理由について、理論的光を当てる。
ディープラーニングの推論フェーズにおけるFPエラー解析のためのソフトウェアフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-10T15:33:19Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。