論文の概要: Benchmarking Quantized Neural Networks on FPGAs with FINN
- arxiv url: http://arxiv.org/abs/2102.01341v1
- Date: Tue, 2 Feb 2021 06:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:28:59.537035
- Title: Benchmarking Quantized Neural Networks on FPGAs with FINN
- Title(参考訳): FINNを用いたFPGA上の量子ニューラルネットワークのベンチマーク
- Authors: Quentin Ducasse, Pascal Cotret, Lo\"ic Lagadec, Robert Stewart
- Abstract要約: 精度を下げるには、精度の低下を無視するコストがかかる。
本稿では、FPGA上にデプロイされたニューラルネットワークに適用した場合の混合精度の影響を評価することを目的とする。
- 参考スコア(独自算出の注目度): 0.42439262432068253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-growing cost of both training and inference for state-of-the-art
neural networks has brought literature to look upon ways to cut off resources
used with a minimal impact on accuracy. Using lower precision comes at the cost
of negligible loss in accuracy. While training neural networks may require a
powerful setup, deploying a network must be possible on low-power and
low-resource hardware architectures. Reconfigurable architectures have proven
to be more powerful and flexible than GPUs when looking at a specific
application. This article aims to assess the impact of mixed-precision when
applied to neural networks deployed on FPGAs. While several frameworks exist
that create tools to deploy neural networks using reduced-precision, few of
them assess the importance of quantization and the framework quality. FINN and
Brevitas, two frameworks from Xilinx labs, are used to assess the impact of
quantization on neural networks using 2 to 8 bit precisions and weights with
several parallelization configurations. Equivalent accuracy can be obtained
using lower-precision representation and enough training. However, the
compressed network can be better parallelized allowing the deployed network
throughput to be 62 times faster. The benchmark set up in this work is
available in a public repository (https://github.com/QDucasse/nn benchmark).
- Abstract(参考訳): 最先端のニューラルネットワークのトレーニングと推論の両方のコストの増大は、正確性に最小限の影響を伴って使用するリソースを削減する方法を文学的に見直すことになった。
精度を下げるには、精度の低下を無視するコストがかかる。
ニューラルネットワークのトレーニングには強力なセットアップが必要だが、低電力と低リソースのハードウェアアーキテクチャでネットワークをデプロイできる必要がある。
再構成可能なアーキテクチャは、特定のアプリケーションを見る場合、GPUよりも強力で柔軟なことが証明されている。
本稿では、FPGA上に展開されたニューラルネットワークに適用した場合の混合精度の影響を評価することを目的とする。
ニューラルネットワークを低精度でデプロイするツールを作成するフレームワークはいくつか存在するが、量子化の重要性とフレームワークの品質を評価するものはほとんどない。
Xilinxラボの2つのフレームワークであるFINNとBrevitasを使用して、2から8ビットの精度と複数の並列化構成の重みを使用して、ニューラルネットワークに対する量子化の影響を評価します。
精度の低い表現と十分なトレーニングで等価な精度を得ることができます。
しかし、圧縮されたネットワークはより並列化され、ネットワークのスループットが62倍高速になる。
この作業で設定されたベンチマークは、パブリックリポジトリ(https://github.com/QDucasse/nnベンチマーク)で利用できる。
関連論文リスト
- Bayesian Inference Accelerator for Spiking Neural Networks [3.145754107337963]
スパイキングニューラルネットワーク(SNN)は、計算面積と電力を減らす可能性がある。
本研究では,効率的なベイズSNNをハードウェア上で開発・実装するための最適化フレームワークについて述べる。
我々は、完全精度のベルヌーイパラメータを持つベイジアンバイナリネットワークに匹敵するアキュラ級数を示し、最大25時間分のスパイクを減らした。
論文 参考訳(メタデータ) (2024-01-27T16:27:19Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Optimisation of a Siamese Neural Network for Real-Time Energy Efficient
Object Tracking [0.0]
組込み視覚システムのためのSiameseニューラルネットワークを用いた視覚物体追跡の最適化について述べる。
提案手法は,高解像度ビデオストリームに対して,リアルタイムに動作するものと推定された。
論文 参考訳(メタデータ) (2020-07-01T13:49:56Z) - Compressing deep neural networks on FPGAs to binary and ternary
precision with HLS4ML [13.325670094073383]
本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。
モデル精度と資源消費のトレードオフについて論じる。
二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
論文 参考訳(メタデータ) (2020-03-11T10:46:51Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。