論文の概要: PolyLUT: Ultra-low Latency Polynomial Inference with Hardware-Aware Structured Pruning
- arxiv url: http://arxiv.org/abs/2501.08043v1
- Date: Tue, 14 Jan 2025 11:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:17.378295
- Title: PolyLUT: Ultra-low Latency Polynomial Inference with Hardware-Aware Structured Pruning
- Title(参考訳): PolyLUT: ハードウェアを意識した構造化プルーニングによる超低レイテンシポリノミアル推論
- Authors: Marta Andronic, Jiawen Li, George A. Constantinides,
- Abstract要約: 本稿では,CERNを基本構成ブロックとして,FPGAデプロイメントのためのDNNのトレーニング手法を提案する。
本手法はソフトロジックによって提供される柔軟性を活用し,LUT内の評価を最小限のオーバーヘッドで隠蔽する。
本稿では,ネットワーク侵入検出,大型ハドロン衝突型加速器におけるジェット識別,MNISTの3つの課題に対するPolyLUTの有効性を示す。
- 参考スコア(独自算出の注目度): 8.791770352147989
- License:
- Abstract: Standard deep neural network inference involves the computation of interleaved linear maps and nonlinear activation functions. Prior work for ultra-low latency implementations has hardcoded these operations inside FPGA lookup tables (LUTs). However, FPGA LUTs can implement a much greater variety of functions. In this paper, we propose a novel approach to training DNNs for FPGA deployment using multivariate polynomials as the basic building block. Our method takes advantage of the flexibility offered by the soft logic, hiding the polynomial evaluation inside the LUTs with minimal overhead. By using polynomial building blocks, we achieve the same accuracy using considerably fewer layers of soft logic than by using linear functions, leading to significant latency and area improvements. LUT-based implementations also face a significant challenge: the LUT size grows exponentially with the number of inputs. Prior work relies on a priori fixed sparsity, with results heavily dependent on seed selection. To address this, we propose a structured pruning strategy using a bespoke hardware-aware group regularizer that encourages a particular sparsity pattern that leads to a small number of inputs per neuron. We demonstrate the effectiveness of PolyLUT on three tasks: network intrusion detection, jet identification at the CERN Large Hadron Collider, and MNIST.
- Abstract(参考訳): 標準的なディープニューラルネットワーク推論には、インターリーブされた線形写像と非線形活性化関数の計算が含まれる。
超低レイテンシ実装の以前の作業は、FPGAルックアップテーブル(LUT)内でこれらの操作をハードコードしていた。
しかし、FPGA LUTはより多様な機能を実装することができる。
本稿では,多変量多項式を基本構成ブロックとして用いたFPGAデプロイメントのためのDNNのトレーニング手法を提案する。
本手法はソフトロジックの柔軟性を活用し,LUT内の多項式評価を最小限のオーバーヘッドで隠蔽する。
多項式構築ブロックを用いることで,線形関数よりもソフトロジックの層をはるかに少なくすることで,待ち時間と面積の大幅な改善を実現した。
LUT ベースの実装も大きな課題に直面している: LUT のサイズは入力数とともに指数関数的に増加する。
以前の作業は、種子の選択に大きく依存する、事前の固定された間隔に依存していた。
そこで本研究では,各ニューロンに少数の入力を誘導する,特定の空間パターンを奨励するハードウェア・アウェアグループ正規化器を用いて,構造化プルーニング戦略を提案する。
本稿では,ネットワーク侵入検出,CERN大型ハドロン衝突型加速器におけるジェット識別,MNISTの3つの課題に対するPolyLUTの有効性を示す。
関連論文リスト
- TreeLUT: An Efficient Alternative to Deep Neural Networks for Inference Acceleration Using Gradient Boosted Decision Trees [0.6906005491572401]
FPGA上での勾配向上決定木(GBDT)実装のためのオープンソースツールであるTreeLUTを提案する。
本稿では,複数のデータセットを分類し,超低域と遅延性の評価によく用いられるTreeLUTの有効性を示す。
以上の結果から,TreeLUTはハードウェア利用率,レイテンシ,スループットを,従来の作業に比べて競争精度で大幅に向上することがわかった。
論文 参考訳(メタデータ) (2025-01-02T19:38:07Z) - PolyLUT-Add: FPGA-based LUT Inference with Wide Inputs [1.730979251211628]
この研究はPolyLUT-Addを導入し、これは精度を向上させるために$A$ PolyLUTサブニューロンを組み合わせることによってニューロンの接続性を高める技術である。
我々は,MNIST,Jet Substructure Classification,Network Intrusion Detectionベンチマークに対する実装評価を行い,同様の精度でPolyLUT-AddがLUTの2.0-13.9times$と1.2-1.6times$の遅延低減を実現していることを確認した。
論文 参考訳(メタデータ) (2024-06-07T13:00:57Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - PolyLUT: Learning Piecewise Polynomials for Ultra-Low Latency FPGA
LUT-based Inference [3.1999570171901786]
ビルディングブロックを用いることで,線形関数よりもソフトロジックの層が少なく,同じ精度を実現できることを示す。
本手法の有効性を,ネットワーク侵入検出,CERN大型ハドロン衝突型加速器におけるジェット識別,MNISTデータセットを用いた手書き桁認識の3つのタスクで示す。
論文 参考訳(メタデータ) (2023-09-05T15:54:09Z) - Regularization of polynomial networks for image recognition [78.4786845859205]
PN(Polynomial Networks)は、将来性があり、解釈可能性も向上した代替手法として登場した。
6つのベンチマークでResNetのパフォーマンスに到達できるPNのクラスを紹介します。
論文 参考訳(メタデータ) (2023-03-24T10:05:22Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Poly-NL: Linear Complexity Non-local Layers with Polynomials [76.21832434001759]
性能を損なわずに2次から線形に複雑性を低減できる新しい高速非局所ブロックを定式化する。
The proposed method, we dub that "Poly-NL" is competitive to state-of-the-art performance across image recognition, instance segmentation, and face detection task。
論文 参考訳(メタデータ) (2021-07-06T19:51:37Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Fast and Complete: Enabling Complete Neural Network Verification with
Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。
LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。
既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文 参考訳(メタデータ) (2020-11-27T16:42:12Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。