論文の概要: SparsePixels: Efficient Convolution for Sparse Data on FPGAs
- arxiv url: http://arxiv.org/abs/2512.06208v1
- Date: Fri, 05 Dec 2025 23:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.23908
- Title: SparsePixels: Efficient Convolution for Sparse Data on FPGAs
- Title(参考訳): SparsePixels:FPGA上のスパースデータのための効率的な畳み込み
- Authors: Ho Fung Tsoi, Dylan Rankin, Vladimir Loncar, Philip Harris,
- Abstract要約: 一部の画像データでは、入力特徴は空間的に疎くなり、セマンティック情報は入力画素のごく一部を占めることができる。
FPGA上の空間的スパース画像データのための効率的な畳み込みのためのフレームワークであるSparsePixelsを紹介する。
提案手法では,CNNの特殊なクラスを実装し,他の部分を無視しながらアクティブな画素の小さなサブセットを選択的に保持し,計算する。
- 参考スコア(独自算出の注目度): 0.10425052724357148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference of standard CNNs on FPGAs often incurs high latency and a long initiation interval due to the deep nested loops required to densely convolve every input pixel regardless of its feature value, especially when the image size is large. However, in some image data, input features can be spatially sparse, and semantic information may occupy only a small fraction of the input pixels. In this case most computation would be wasted on empty regions. In this work, we introduce SparsePixels, a framework for efficient convolution for spatially sparse image data on FPGAs, targeting fast inference applications in constrained environments with latency requirements of microseconds or below. Our approach implements a special class of CNNs that selectively retain and compute on a small subset of pixels that are active while ignoring the rest. We show that, for example, in a neutrino physics dataset for identifying neutrino interactions in LArTPC images that have around 4k input pixels but are naturally very sparse, a standard CNN with a compact size of 4k parameters incurs an inference latency of 48.665 $μ$s on an FPGA, whereas a sparse CNN of the same base architecture computing on less than 1% of the input pixels results in a $\times 73$ inference speedup to 0.665 $μ$s, with resource utilization well within on-chip budgets, trading only a small percent-level performance loss. At least one-order-of magnitude speedups with comparable performance are also demonstrated in similar datasets with sparse image patterns. This work aims to benefit future algorithm developments for fast and efficient data readout in modern experiments such as the trigger and data acquisition systems at the CERN Large Hadron Collider. For easy adoption, we have developed a library to support building sparse CNNs with quantization-aware training, as well as an HLS implementation for FPGA deployment.
- Abstract(参考訳): FPGA上での標準CNNの推測は、特に画像サイズが大きい場合において、その特徴値に関わらず、全ての入力ピクセルを密に折り畳むために必要な深いネストループのために、レイテンシが高く、長い開始間隔を生じることが多い。
しかし、一部の画像データでは、入力特徴は空間的に疎くなり、セマンティック情報は入力画素のごく一部を占めることができる。
この場合、ほとんどの計算は空の領域で無駄にされる。
本研究では、FPGA上で空間的にスパースされた画像データを効率的に畳み込むためのフレームワークであるSparsePixelsを紹介する。
提案手法では,CNNの特殊なクラスを実装し,他の部分を無視しながらアクティブな画素の小さなサブセットを選択的に保持し,計算する。
例えば,約4k入力画素を持つLArTPC画像のニュートリノ相互作用を識別するニュートリノ物理データセットにおいて,4kパラメータのコンパクトな標準CNNがFPGA上で48.665$μ$sの推論遅延を発生させるのに対して,同じベースアーキテクチャのスパースCNNが入力ピクセルの1%未満で計算すると,73$の推論速度が0.665$μ$sになる。
同等のパフォーマンスを持つ少なくとも1桁のスピードアップも、スパース画像パターンを持つ同様のデータセットで示されている。
この研究は、CERN Large Hadron Colliderのトリガーやデータ取得システムのような近代的な実験において、高速で効率的なデータ読み出しのための将来のアルゴリズム開発に利益をもたらすことを目的としている。
簡単な採用のために、量子化対応トレーニングによるスパースCNNの構築とFPGAデプロイメントのためのHLS実装をサポートするライブラリを開発した。
関連論文リスト
- H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Toward Efficient Hyperspectral Image Processing inside Camera Pixels [1.6449390849183356]
ハイパースペクトルカメラは、数百のスペクトル帯が存在するため、大量のデータを生成する。
この問題を軽減するために,PIP (Processing-in-Pixel) 形式を提案する。
我々のPIP最適化カスタムCNN層は、入力データを効果的に圧縮し、データをHSI処理ユニットに送信するために必要な帯域幅を大幅に削減する。
論文 参考訳(メタデータ) (2022-03-11T01:06:02Z) - Learning Neural Light Fields with Ray-Space Embedding Networks [51.88457861982689]
我々は、コンパクトで、光線に沿った統合放射率を直接予測する新しいニューラル光場表現を提案する。
提案手法は,Stanford Light Field データセットのような,高密度の前方向きデータセットの最先端品質を実現する。
論文 参考訳(メタデータ) (2021-12-02T18:59:51Z) - Pixel Difference Networks for Efficient Edge Detection [71.03915957914532]
本稿では,Pixel Difference Network (PiDiNet) という軽量かつ効率的なエッジ検出アーキテクチャを提案する。
BSDS500、NYUD、Multicueのデータセットに関する大規模な実験が、その効果を示すために提供されている。
0.1M未満のパラメータを持つPiDiNetのより高速なバージョンは、200FPSのアーティファクトで同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2021-08-16T10:42:59Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。