論文の概要: FPGA Resource-aware Structured Pruning for Real-Time Neural Networks
- arxiv url: http://arxiv.org/abs/2308.05170v2
- Date: Wed, 13 Dec 2023 01:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:40:55.019028
- Title: FPGA Resource-aware Structured Pruning for Real-Time Neural Networks
- Title(参考訳): 実時間ニューラルネットワークのためのFPGAリソース対応構造化プルーニング
- Authors: Benjamin Ramhorst, Vladimir Loncar, George A. Constantinides
- Abstract要約: プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
提案手法は, DSP使用率の55%から92%, BRAM使用率の81%の削減を実現する。
- 参考スコア(独自算出の注目度): 3.294652922898631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks achieve state-of-the-art performance in image classification,
speech recognition, scientific analysis and many more application areas. Due to
the high computational complexity and memory footprint of neural networks,
various compression techniques, such as pruning and quantization, have been
proposed in literature. Pruning sparsifies a neural network, reducing the
number of multiplications and memory. However, pruning often fails to capture
properties of the underlying hardware, causing unstructured sparsity and
load-balance inefficiency, thus bottlenecking resource improvements. We propose
a hardware-centric formulation of pruning, by formulating it as a knapsack
problem with resource-aware tensor structures. Evaluated on a range of tasks,
including sub-microsecond particle classification at CERN's Large Hadron
Collider and fast image classification, the proposed method achieves reductions
ranging between 55% and 92% in the DSP utilization and up to 81% in BRAM
utilization.
- Abstract(参考訳): ニューラルネットワークは、画像分類、音声認識、科学分析、その他多くの応用分野において最先端のパフォーマンスを達成する。
ニューラルネットワークの計算複雑性とメモリフットプリントが高いため、プルーニングや量子化といった様々な圧縮技術が文献で提案されている。
プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
しかし、プルーニングはしばしば基盤となるハードウェアの特性を捉えず、非構造的なスパーシリティと負荷バランスの非効率を引き起こすため、リソース改善のボトルネックとなる。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
CERNの大型ハドロン衝突型加速器におけるサブミクロ秒粒子分類や高速画像分類などのタスクに基づいて,提案手法はDSP利用の55%から92%,BRAM利用の81%の削減を実現する。
関連論文リスト
- Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - ItNet: iterative neural networks with small graphs for accurate and
efficient anytime prediction [1.52292571922932]
本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。
CamVidおよびCityscapesデータセットでセマンティックセグメンテーションの最新の結果を示します。
論文 参考訳(メタデータ) (2021-01-21T15:56:29Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Efficient Computation Reduction in Bayesian Neural Networks Through
Feature Decomposition and Memorization [10.182119276564643]
本稿では,計算コストを削減するため,効率的なBNN推論フローを提案する。
計算の約半分は従来の手法と比べて取り除くことができる。
We implement our approach in Verilog and synthesise it with 45 $nm$ FreePDK technology。
論文 参考訳(メタデータ) (2020-05-08T05:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。