論文の概要: Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural
Network Inference
- arxiv url: http://arxiv.org/abs/2112.02346v1
- Date: Sat, 4 Dec 2021 14:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:58:50.774406
- Title: Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural
Network Inference
- Title(参考訳): Logic Shrinkage: ニューラルネットワークの効率的な推論のためのFPGAネットリストスポーラリティの学習
- Authors: Erwei Wang, James J. Davis, Georgios-Ilias Stavrou, Peter Y. K.
Cheung, George A. Constantinides, Mohamed Abdelfattah
- Abstract要約: 本稿では,LUTに基づくトポロジの学習最適化を提案する。
既存のアーキテクチャの実装では、LUT, Kあたりの入力数を手動で指定する必要がある。
本稿では,FPGA推論を対象とするニューラルネットワークにおいて,各LUTに対してKを自動的に学習することのできる,詳細なネットリスト解析手法である論理縮小手法を提案する。
- 参考スコア(独自算出の注目度): 3.2296078260106174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: FPGA-specific DNN architectures using the native LUTs as independently
trainable inference operators have been shown to achieve favorable
area-accuracy and energy-accuracy tradeoffs. The first work in this area,
LUTNet, exhibited state-of-the-art performance for standard DNN benchmarks. In
this paper, we propose the learned optimization of such LUT-based topologies,
resulting in higher-efficiency designs than via the direct use of
off-the-shelf, hand-designed networks. Existing implementations of this class
of architecture require the manual specification of the number of inputs per
LUT, K. Choosing appropriate K a priori is challenging, and doing so at even
high granularity, e.g. per layer, is a time-consuming and error-prone process
that leaves FPGAs' spatial flexibility underexploited. Furthermore, prior works
see LUT inputs connected randomly, which does not guarantee a good choice of
network topology. To address these issues, we propose logic shrinkage, a
fine-grained netlist pruning methodology enabling K to be automatically learned
for every LUT in a neural network targeted for FPGA inference. By removing LUT
inputs determined to be of low importance, our method increases the efficiency
of the resultant accelerators. Our GPU-friendly solution to LUT input removal
is capable of processing large topologies during their training with negligible
slowdown. With logic shrinkage, we better the area and energy efficiency of the
best-performing LUTNet implementation of the CNV network classifying CIFAR-10
by 1.54x and 1.31x, respectively, while matching its accuracy. This
implementation also reaches 2.71x the area efficiency of an equally accurate,
heavily pruned BNN. On ImageNet with the Bi-Real Net architecture, employment
of logic shrinkage results in a post-synthesis area reduction of 2.67x vs
LUTNet, allowing for implementation that was previously impossible on today's
largest FPGAs.
- Abstract(参考訳): LUTを独立にトレーニング可能な推論演算子として使用するFPGA固有のDNNアーキテクチャは、好適な領域精度とエネルギー精度のトレードオフを実現することが示されている。
この分野での最初の成果であるLUTNetは、標準的なDNNベンチマークの最先端のパフォーマンスを示した。
本稿では,LUTに基づくトポロジの学習的最適化を提案する。これにより,既製のハンドデザインネットワークを直接利用するよりも,効率の高い設計が可能となる。
適切なKを選択することは困難であり、層ごとに高い粒度で行うことは、FPGAの空間的柔軟性を過小評価する時間を要する、エラーを起こしやすいプロセスである。
さらに、以前の研究ではLUT入力をランダムに接続しており、ネットワークトポロジの適切な選択は保証されていない。
そこで本研究では,fpgaを対象とするニューラルネットワークにおいて,lut毎にkを自動学習できる細粒度ネットリストプルーニング手法であるlogic shrinkageを提案する。
重要度が低いと判定されたLUT入力を除去することにより,得られたアクセラレータの効率を向上する。
LUT入力削除のためのGPUフレンドリなソリューションは、無視できないスローダウンでトレーニング中に大きなトポロジを処理できる。
CIFAR-10 を 1.54x と 1.31x に分類する CNV ネットワークの最適性能 LUTNet 実装の面積とエネルギー効率を精度良く向上させる。
この実装は、同じ精度で非常に刈り取られたbnnの面積効率の2.71倍にも達する。
バイリアルネットアーキテクチャを使ったImageNetでは、ロジックの縮小が2.67xとLUTNetの合成後の領域を縮小させる結果となり、今日の最大のFPGAでは実装が不可能になった。
関連論文リスト
- LUTMUL: Exceed Conventional FPGA Roofline Limit by LUT-based Efficient Multiplication for Neural Network Inference [25.342107763021147]
本稿では、LUTMULを導入し、LUT(ルックアップテーブル)のポテンシャルを利用して乗算を行う。
LUTのこの利点を生かして,FPGAベースのニューラルネットワークアクセラレータの性能向上の可能性を実証する。
論文 参考訳(メタデータ) (2024-11-01T02:54:11Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。