論文の概要: Fast convolutional neural networks on FPGAs with hls4ml
- arxiv url: http://arxiv.org/abs/2101.05108v1
- Date: Wed, 13 Jan 2021 14:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 08:07:55.591030
- Title: Fast convolutional neural networks on FPGAs with hls4ml
- Title(参考訳): hls4mlを用いたFPGA上の高速畳み込みニューラルネットワーク
- Authors: Thea Aarrestad, Vladimir Loncar, Maurizio Pierini, Sioni Summers,
Jennifer Ngadiuba, Christoffer Petersson, Hampus Linander, Yutaro Iiyama,
Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Dylan Rankin, Sergo
Jindariani, Kevin Pedro, Nhan Tran, Mia Liu, Edward Kreinar, Zhenbin Wu, and
Duc Hoang
- Abstract要約: FPGAに超低遅延低電力ディープニューラルネットワークをデプロイするための自動化ツールを紹介します。
最新のモデルパフォーマンスを維持しながら、畳み込みアーキテクチャを使用して5,mu$sの推論レイテンシを実現する方法をデモします。
- 参考スコア(独自算出の注目度): 0.22756183402372013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an automated tool for deploying ultra low-latency, low-power
deep neural networks with large convolutional layers on FPGAs. By extending the
hls4ml library, we demonstrate how to achieve inference latency of $5\,\mu$s
using convolutional architectures, while preserving state-of-the-art model
performance. Considering benchmark models trained on the Street View House
Numbers Dataset, we demonstrate various methods for model compression in order
to fit the computational constraints of a typical FPGA device. In particular,
we discuss pruning and quantization-aware training, and demonstrate how
resource utilization can be reduced by over 90% while maintaining the original
model accuracy.
- Abstract(参考訳): FPGA上に大きな畳み込み層を持つ超低レイテンシで低消費電力のディープニューラルネットワークをデプロイする自動化ツールを導入する。
hls4mlライブラリを拡張することで、畳み込みアーキテクチャを用いて5\,\mu$sの推論遅延を達成し、最先端のモデル性能を維持する方法を示す。
ストリートビューハウス番号データセットで訓練されたベンチマークモデルを考えると、典型的なFPGAデバイスの計算制約に適合するために、モデル圧縮の様々な方法を示す。
特に,プルーニングと量子化対応トレーニングについて論じ,元のモデルの精度を維持しながら資源利用率を90%以上削減できることを示す。
関連論文リスト
- Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - Iterative Filter Pruning for Concatenation-based CNN Architectures [9.651318927588934]
現代の物体検出器は、連結を伴う高度に相互接続された畳み込み層を有する。
本稿では,畳み込み層間の接続グラフに基づいて,連結層を扱う手法を提案する。
FPGAとNVIDIA Jetson Xavier AGXにプルーンドモデルをデプロイする。
論文 参考訳(メタデータ) (2024-05-04T19:40:42Z) - Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - Symbolic Regression on FPGAs for Fast Machine Learning Inference [2.0920303420933273]
高エネルギー物理コミュニティは、FPGA(Field-Programmable Gate Arrays)上に機械学習ベースのソリューションをデプロイする可能性を探っている
シンボリックレグレッション(SR)と呼ばれる機械学習技術を利用した新しいエンドツーエンドプロシージャを提案する。
提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。
論文 参考訳(メタデータ) (2023-05-06T17:04:02Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。