論文の概要: Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA
- arxiv url: http://arxiv.org/abs/2208.04854v1
- Date: Tue, 9 Aug 2022 15:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:20:26.720656
- Title: Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA
- Title(参考訳): FPGAを用いた高速混合CNN加速器の設計
- Authors: Cecilia Latotzke, Tim Ciesielski, and Tobias Gemmeke
- Abstract要約: 層単位での混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。
本稿では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。
我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional Neural Networks (CNNs) reach high accuracies in various
application domains, but require large amounts of computation and incur costly
data movements. One method to decrease these costs while trading accuracy is
weight and/or activation word-length reduction. Thereby, layer-wise
mixed-precision quantization allows for more efficient results while inflating
the design space. In this work, we present an in-depth quantitative methodology
to efficiently explore the design space considering the limited hardware
resources of a given FPGA. Our holistic exploration approach vertically
traverses the various design entry levels from the architectural down to the
logic level, and laterally covers optimization from processing elements to
dataflow for an efficient mixed-precision CNN accelerator. Our resulting
hardware accelerators implement truly mixed-precision operations that enable
efficient execution of layer-wise and channel-wise quantized CNNs. Mapping
feed-forward and identity-shortcut-connection mixed-precision CNNs result in
competitive accuracy-throughout trade-offs: 245 frames/s with 87.48% Top-5
accuracy for ResNet-18 and 92.9% Top-5 accuracy with 1.13 TOps/s for
ResNet-152, respectively. Thereby, the required memory footprint for parameters
is reduced by 4.9x and 9.4x compared to the respective floating-point baseline.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、様々なアプリケーション領域で高い精度に達するが、大量の計算と高価なデータ移動を必要とする。
取引精度を保ちながらコストを下げる一つの方法は、重量および/または活性化語長削減である。
これにより、層間混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。
本研究では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。
我々の総合的な探索手法は、アーキテクチャのダウンから論理のレベルまで様々な設計のエントリーレベルを垂直に通過させ、また、効率的な混合精度CNN加速器のための処理要素からデータフローへの最適化を補助的にカバーする。
我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。
フィードフォワードとIDショートカット接続の混合精度CNNは、それぞれResNet-18では245フレーム/秒、ResNet-18では87.48%、Top-5では92.9%、ResNet-152では1.13TOps/秒である。
これにより、各浮動小数点ベースラインと比較して、パラメータに必要なメモリフットプリントが4.9倍および9.4倍削減される。
関連論文リスト
- LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network
through Spatial-Temporal Compressive Network Search and Joint Optimization [51.9395471326897]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitESNNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - A Time-to-first-spike Coding and Conversion Aware Training for
Energy-Efficient Deep Spiking Neural Network Processor Design [2.850312625505125]
本稿では,ハードウェア実装のオーバーヘッドを伴わずに,ANNからSNNへの変換損失を低減するための変換アウェアネストレーニング(CAT)を提案する。
また、スパイク時間情報を利用して、軽量な対数計算が可能なタイム・ツー・ファースト・スパイク・コーディングを提案する。
計算処理装置は、推論エネルギーが486.7uJ、503.6uJ、1426uJの91.7%、67.9%、57.4%というトップ1の精度を達成する。
論文 参考訳(メタデータ) (2022-08-09T01:46:46Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - HAO: Hardware-aware neural Architecture Optimization for Efficient
Inference [25.265181492143107]
ニューラルネットワーク探索アルゴリズムの設計空間を縮小するための整数プログラミングアルゴリズムを開発する。
私たちのアルゴリズムは、フレームレート50でImageNetの72.5%のトップ-1精度を達成し、MnasNetよりも60%高速で、比較精度でFBNetよりも135%高速です。
論文 参考訳(メタデータ) (2021-04-26T17:59:29Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。