論文の概要: LUTMUL: Exceed Conventional FPGA Roofline Limit by LUT-based Efficient Multiplication for Neural Network Inference
- arxiv url: http://arxiv.org/abs/2411.11852v1
- Date: Fri, 01 Nov 2024 02:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-24 05:33:17.700200
- Title: LUTMUL: Exceed Conventional FPGA Roofline Limit by LUT-based Efficient Multiplication for Neural Network Inference
- Title(参考訳): LUTMUL:LUTに基づくニューラルネットワーク推論のための効率的な乗算による従来型FPGAルーフライン限界
- Authors: Yanyue Xie, Zhengang Li, Dana Diaconu, Suranga Handagala, Miriam Leeser, Xue Lin,
- Abstract要約: 本稿では、LUTMULを導入し、LUT(ルックアップテーブル)のポテンシャルを利用して乗算を行う。
LUTのこの利点を生かして,FPGAベースのニューラルネットワークアクセラレータの性能向上の可能性を実証する。
- 参考スコア(独自算出の注目度): 25.342107763021147
- License:
- Abstract: For FPGA-based neural network accelerators, digital signal processing (DSP) blocks have traditionally been the cornerstone for handling multiplications. This paper introduces LUTMUL, which harnesses the potential of look-up tables (LUTs) for performing multiplications. The availability of LUTs typically outnumbers that of DSPs by a factor of 100, offering a significant computational advantage. By exploiting this advantage of LUTs, our method demonstrates a potential boost in the performance of FPGA-based neural network accelerators with a reconfigurable dataflow architecture. Our approach challenges the conventional peak performance on DSP-based accelerators and sets a new benchmark for efficient neural network inference on FPGAs. Experimental results demonstrate that our design achieves the best inference speed among all FPGA-based accelerators, achieving a throughput of 1627 images per second and maintaining a top-1 accuracy of 70.95% on the ImageNet dataset.
- Abstract(参考訳): FPGAベースのニューラルネットワークアクセラレータでは、デジタル信号処理(DSP)ブロックが伝統的に乗算処理の基盤となっている。
本稿では、LUTMULを導入し、LUT(ルックアップテーブル)のポテンシャルを利用して乗算を行う。
LUTの可用性は典型的には100倍のDSPよりも優れており、計算上の優位性がある。
LUTのこの利点を利用して、再構成可能なデータフローアーキテクチャを用いたFPGAベースのニューラルネットワークアクセラレータの性能向上を実証する。
提案手法は、DSPベースのアクセラレータ上での従来のピーク性能に挑戦し、FPGA上での効率的なニューラルネットワーク推論のための新しいベンチマークを設定する。
実験結果から,この設計はFPGAベースのアクセラレータで最高の推論速度を実現し,毎秒1627イメージのスループットを実現し,ImageNetデータセット上でトップ1の精度70.95%を維持した。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。
本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。
AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文 参考訳(メタデータ) (2024-07-02T15:28:10Z) - Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。
我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。
この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文 参考訳(メタデータ) (2023-07-16T01:20:17Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Accelerated Charged Particle Tracking with Graph Neural Networks on
FPGAs [0.0]
グラフニューラルネットワークに基づく荷電粒子追跡のためのアルゴリズムのFPGA実装を開発し,研究する。
CPUベースの実行の大幅な高速化が可能であり、将来的にはそのようなアルゴリズムを効果的に利用できるようになる可能性がある。
論文 参考訳(メタデータ) (2020-11-30T18:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。