論文の概要: LL-GNN: Low Latency Graph Neural Networks on FPGAs for Particle
Detectors
- arxiv url: http://arxiv.org/abs/2209.14065v1
- Date: Wed, 28 Sep 2022 12:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 18:29:03.335994
- Title: LL-GNN: Low Latency Graph Neural Networks on FPGAs for Particle
Detectors
- Title(参考訳): LL-GNN:粒子検出器のためのFPGA上の低レイテンシグラフニューラルネットワーク
- Authors: Zhiqiang Que, Marcus Loo, Hongxiang Fan, Michaela Blott, Maurizio
Pierini, Alexander D Tapper and Wayne Luk
- Abstract要約: 本研究は,粒子検出器に特化した低レイテンシグラフニューラルネットワーク(GNN)設計のための,新しい再構成可能なアーキテクチャを提案する。
この低レイテンシGNNハードウェアアーキテクチャのためのカスタマイズ可能なテンプレートが設計され、オープンソース化されている。
評価結果から,FPGA実装は最大24倍高速で,GPU実装の最大45倍の消費電力を消費することがわかった。
- 参考スコア(独自算出の注目度): 58.92603213419668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a novel reconfigurable architecture for low latency Graph
Neural Network (GNN) design specifically for particle detectors. Accelerating
GNNs for particle detectors is challenging since it requires sub-microsecond
latency to deploy the networks for online event selection in the Level-1
triggers at the CERN Large Hadron Collider experiments. This paper proposes a
custom code transformation with strength reduction for the matrix
multiplication operations in the interaction-network based GNNs with fully
connected graphs, which avoids the costly multiplication. It exploits sparsity
patterns as well as binary adjacency matrices, and avoids irregular memory
access, leading to a reduction in latency and improvement in hardware
efficiency. In addition, we introduce an outer-product based matrix
multiplication approach which is enhanced by the strength reduction for low
latency design. Also, a fusion step is introduced to further reduce the design
latency. Furthermore, an GNN-specific algorithm-hardware co-design approach is
presented which not only finds a design with a much better latency but also
finds a high accuracy design under a given latency constraint. Finally, a
customizable template for this low latency GNN hardware architecture has been
designed and open-sourced, which enables the generation of low-latency FPGA
designs with efficient resource utilization using a high-level synthesis tool.
Evaluation results show that our FPGA implementation is up to 24 times faster
and consumes up to 45 times less power than a GPU implementation. Compared to
our previous FPGA implementations, this work achieves 6.51 to 16.7 times lower
latency. Moreover, the latency of our FPGA design is sufficiently low to enable
deployment of GNNs in a sub-microsecond, real-time collider trigger system,
enabling it to benefit from improved accuracy.
- Abstract(参考訳): 本研究は,粒子検出器に特化した低レイテンシグラフニューラルネットワーク(GNN)設計のための,新しい再構成可能なアーキテクチャを提案する。
CERNの大型ハドロン衝突型加速器実験において、オンラインイベント選択のためにネットワークをデプロイするために、サブマイクロ秒レイテンシを必要とするため、粒子検出器のGNNの高速化は難しい。
本稿では、完全に連結されたグラフを持つ相互作用ネットワークベースGNNにおける行列乗算演算の強度を低減したカスタムコード変換を提案する。
スパーシティパターンとバイナリ隣接行列を利用し、不規則なメモリアクセスを回避し、レイテンシの低減とハードウェア効率の向上につながる。
さらに,低レイテンシ設計のための強度低減により強化された外部積ベースの行列乗算手法を提案する。
また、設計遅延をさらに低減するために、融合ステップが導入される。
さらに、GNN固有のアルゴリズム-ハードウェア共設計アプローチが提示され、より優れたレイテンシを持つ設計を見つけるだけでなく、与えられたレイテンシ制約の下で高精度な設計を求める。
最後に、この低レイテンシGNNハードウェアアーキテクチャのためのカスタマイズ可能なテンプレートを設計、オープンソース化し、高レベル合成ツールを用いて効率的な資源利用による低レイテンシFPGA設計を可能にする。
評価結果から,FPGA実装は最大24倍高速で,GPU実装の最大45倍の消費電力を消費することがわかった。
従来のFPGA実装と比較して、この作業は6.51から16.7倍のレイテンシを実現する。
さらに、FPGA設計のレイテンシは十分低く、サブマイクロ秒のリアルタイムコライダートリガシステムにGNNを配置できるため、精度の向上によるメリットが期待できる。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Embedded Graph Convolutional Networks for Real-Time Event Data Processing on SoC FPGAs [0.815557531820863]
イベントカメラは、組み込みリアルタイムシステムへの統合に大きな関連性を見出す。
イベント処理システムに必要なスループットとレイテンシを保証する効果的なアプローチの1つは、グラフ畳み込みネットワーク(GCN)の利用である。
我々は,ポイントクラウド処理用に設計されたGCNアーキテクチャであるPointNet++用に最適化された,ハードウェア対応の一連の最適化を紹介した。
論文 参考訳(メタデータ) (2024-06-11T14:47:36Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - High-Performance FPGA-based Accelerator for Bayesian Recurrent Neural
Networks [2.0631735969348064]
本稿では,ベイジアンLSTMベースのRNNを高速化するFPGAベースのハードウェア設計を提案する。
GPU実装と比較して、FPGAベースの設計では、最大106倍のエネルギー効率で10倍のスピードアップを実現できます。
論文 参考訳(メタデータ) (2021-06-04T14:30:39Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Distance-Weighted Graph Neural Networks on FPGAs for Real-Time Particle
Reconstruction in High Energy Physics [11.125632758828266]
FPGA上で1$mumathrms未満のレイテンシで実行できる距離重み付きグラフネットワークの設計方法について論じる。
本研究では,粒子衝突型加速器で動作する次世代熱量計における粒子の再構成と同定に関連する代表的課題について考察する。
我々は、圧縮されたモデルをファームウェアに変換し、FPGA上で実装する。
論文 参考訳(メタデータ) (2020-08-08T21:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。