論文の概要: Compressing deep neural networks on FPGAs to binary and ternary
precision with HLS4ML
- arxiv url: http://arxiv.org/abs/2003.06308v2
- Date: Mon, 29 Jun 2020 09:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:59:04.808303
- Title: Compressing deep neural networks on FPGAs to binary and ternary
precision with HLS4ML
- Title(参考訳): HLS4MLを用いたFPGA上のディープニューラルネットワークの2進および3進精度圧縮
- Authors: Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Duc Hoang, Sergo
Jindariani, Edward Kreinar, Mia Liu, Vladimir Loncar, Jennifer Ngadiuba,
Kevin Pedro, Maurizio Pierini, Dylan Rankin, Sheila Sagear, Sioni Summers,
Nhan Tran, Zhenbin Wu
- Abstract要約: 本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。
モデル精度と資源消費のトレードオフについて論じる。
二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
- 参考スコア(独自算出の注目度): 13.325670094073383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the implementation of binary and ternary neural networks in the
hls4ml library, designed to automatically convert deep neural network models to
digital circuits with FPGA firmware. Starting from benchmark models trained
with floating point precision, we investigate different strategies to reduce
the network's resource consumption by reducing the numerical precision of the
network parameters to binary or ternary. We discuss the trade-off between model
accuracy and resource consumption. In addition, we show how to balance between
latency and accuracy by retaining full precision on a selected subset of
network components. As an example, we consider two multiclass classification
tasks: handwritten digit recognition with the MNIST data set and jet
identification with simulated proton-proton collisions at the CERN Large Hadron
Collider. The binary and ternary implementation has similar performance to the
higher precision implementation while using drastically fewer FPGA resources.
- Abstract(参考訳): 本稿では,深いニューラルネットワークモデルをfpgaファームウェアを用いてディジタル回路に自動的に変換するように設計されたhls4mlライブラリにおけるバイナリおよび三元ニューラルネットワークの実装について述べる。
浮動小数点精度をトレーニングしたベンチマークモデルから,ネットワークパラメータの数値精度を2進数または3進数に下げることで,ネットワークリソース消費を削減するための異なる戦略を検討する。
モデル精度と資源消費のトレードオフについて論じる。
さらに,ネットワークコンポーネントの選択したサブセットに完全精度を保持することで,レイテンシと精度のバランスをとる方法を示す。
例えば、MNISTデータセットを用いた手書き桁認識と、CERN大ハドロン衝突による陽子-陽子衝突のシミュレーションによるジェット識別の2つのクラス分類タスクを考える。
二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
関連論文リスト
- Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - PulseDL-II: A System-on-Chip Neural Network Accelerator for Timing and
Energy Extraction of Nuclear Detector Signals [3.307097167756987]
本稿では,深層学習を持つパルスからイベント特徴(時間,エネルギーなど)を抽出するためのシステムオンチップ(SoC)であるPulseDL-IIを紹介する。
提案システムは, 47.4dBの信号対雑音比(SNR)において, オンラインニューラルネットワークを用いた60psの時間分解能と0.40%のエネルギー分解能を得た。
論文 参考訳(メタデータ) (2022-09-02T08:52:21Z) - LPYOLO: Low Precision YOLO for Face Detection on FPGA [1.7188280334580197]
監視システムにおける顔検出は、セキュリティ市場の最も期待されている応用である。
TinyYolov3アーキテクチャは、顔検出のために再設計され、デプロイされる。
Modelは、FINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。
論文 参考訳(メタデータ) (2022-07-21T13:54:52Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Benchmarking Quantized Neural Networks on FPGAs with FINN [0.42439262432068253]
精度を下げるには、精度の低下を無視するコストがかかる。
本稿では、FPGA上にデプロイされたニューラルネットワークに適用した場合の混合精度の影響を評価することを目的とする。
論文 参考訳(メタデータ) (2021-02-02T06:42:07Z) - Enabling certification of verification-agnostic networks via
memory-efficient semidefinite programming [97.40955121478716]
本稿では,ネットワークアクティベーションの総数にのみ線形なメモリを必要とする一階二重SDPアルゴリズムを提案する。
L-inf の精度は 1% から 88% ,6% から 40% に改善した。
また,変分オートエンコーダの復号器に対する2次安定性仕様の厳密な検証を行った。
論文 参考訳(メタデータ) (2020-10-22T12:32:29Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z) - Switchable Precision Neural Networks [35.2752928147013]
複数の量子化レベルで動作可能な共有ネットワークをトレーニングするために,スイッチブル精密ニューラルネットワーク(SP-Nets)を提案する。
実行時に、ネットワークは、インスタントメモリ、レイテンシ、消費電力、精度要求に応じて、オンザフライで精度を調整することができる。
論文 参考訳(メタデータ) (2020-02-07T14:43:44Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。