論文の概要: da4ml: Distributed Arithmetic for Real-time Neural Networks on FPGAs
- arxiv url: http://arxiv.org/abs/2507.04535v1
- Date: Sun, 06 Jul 2025 21:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.228226
- Title: da4ml: Distributed Arithmetic for Real-time Neural Networks on FPGAs
- Title(参考訳): da4ml:FPGA上のリアルタイムニューラルネットワークのための分散算術
- Authors: Chang Sun, Zhiqiang Que, Vladimir Loncar, Wayne Luk, Maria Spiropulu,
- Abstract要約: FPGA上での分散算術 (DA) を用いた定数行列ベクトル乗算 (CMVM) 演算の効率的な実装法を提案する。
このアルゴリズムは、最先端のアルゴリズムと同様のリソース削減を実現し、計算を著しく高速化する。
提案アルゴリズムは,リアルタイムかつ高量子化されたニューラルネットワークに対して,同時にレイテンシを低減しつつ,チップ上のリソースを最大3分の1削減できることを示す。
- 参考スコア(独自算出の注目度): 5.979741271992278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks with a latency requirement on the order of microseconds, like the ones used at the CERN Large Hadron Collider, are typically deployed on FPGAs fully unrolled and pipelined. A bottleneck for the deployment of such neural networks is area utilization, which is directly related to the required constant matrix-vector multiplication (CMVM) operations. In this work, we propose an efficient algorithm for implementing CMVM operations with distributed arithmetic (DA) on FPGAs that simultaneously optimizes for area consumption and latency. The algorithm achieves resource reduction similar to state-of-the-art algorithms while being significantly faster to compute. The proposed algorithm is open-sourced and integrated into the \texttt{hls4ml} library, a free and open-source library for running real-time neural network inference on FPGAs. We show that the proposed algorithm can reduce on-chip resources by up to a third for realistic, highly quantized neural networks while simultaneously reducing latency, enabling the implementation of previously infeasible networks.
- Abstract(参考訳): CERN Large Hadron Colliderで使用されるような、マイクロ秒の順序でレイテンシを必要とするニューラルネットワークは、通常は完全にアンロールされパイプライン化されたFPGAにデプロイされる。
このようなニューラルネットワークの展開のボトルネックは、要求される定数行列ベクトル乗算(CMVM)操作に直接関連している領域利用である。
本研究では,FPGA上での分散算術(DA)を用いたCMVM演算の効率的な実装法を提案する。
このアルゴリズムは、最先端のアルゴリズムと同様のリソース削減を実現し、計算を著しく高速化する。
提案アルゴリズムは,FPGA上でリアルタイムニューラルネットワーク推論を実行するための,フリーかつオープンソースライブラリである‘texttt{hls4ml}ライブラリにオープンソースとして統合されている。
提案アルゴリズムは,リアルタイムかつ高量子化されたニューラルネットワークを実現するために,チップ上のリソースを最大3分の1削減し,同時にレイテンシを低減し,これまで実現できなかったネットワークの実装を可能にする。
関連論文リスト
- Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Queue-aware Network Control Algorithm with a High Quantum Computing Readiness-Evaluated in Discrete-time Flow Simulator for Fat-Pipe Networks [0.0]
広域ネットワークにおける交通工学のための資源再占有アルゴリズムを提案する。
提案アルゴリズムは、過負荷のトランシーバの場合のトラフィックステアリングとリソース割り当てを変更する。
新たに導入したネットワークシミュレータにより,フェットパイプネットワーク内のバッファリングなどの短時間効果を解析できることを示す。
論文 参考訳(メタデータ) (2024-04-05T13:13:02Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - YFlows: Systematic Dataflow Exploration and Code Generation for
Efficient Neural Network Inference using SIMD Architectures on CPUs [3.1445034800095413]
CPU上にニューラルネットワークをデプロイする際の課題に対処する。
我々の新しいアプローチは、ニューラルネットワークのデータフローを使用して、データ再利用の機会を探ることです。
その結果,SIMDレジスタに出力を保持するデータフローが常に最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-10-01T05:11:54Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - FPGA Resource-aware Structured Pruning for Real-Time Neural Networks [3.294652922898631]
プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
提案手法は, DSP使用率の55%から92%, BRAM使用率の81%の削減を実現する。
論文 参考訳(メタデータ) (2023-08-09T18:14:54Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - IoV Scenario: Implementation of a Bandwidth Aware Algorithm in Wireless
Network Communication Mode [49.734868032441625]
本稿では,マルチドメイン仮想ネットワーク埋め込みアルゴリズム(BA-VNE)を提案する。
このアルゴリズムは主に、ユーザが無線通信モードで多くの帯域幅を必要とする問題を対象としている。
本アルゴリズムの性能向上のために,粒子群最適化(PSO)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-02-03T03:34:06Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - MajorityNets: BNNs Utilising Approximate Popcount for Improved
Efficiency [13.186127108769615]
本稿では、XNorMajと呼ばれるXnorPopcount演算のより小さく、より速く、よりエネルギー効率の良い近似置換を提案する。
XNorMajはXnorPopcount操作の最大2倍のリソース効率を持つことを示す。
論文 参考訳(メタデータ) (2020-02-27T04:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。