論文の概要: Data-Rate-Aware High-Speed CNN Inference on FPGAs
- arxiv url: http://arxiv.org/abs/2603.08726v1
- Date: Wed, 18 Feb 2026 08:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.499549
- Title: Data-Rate-Aware High-Speed CNN Inference on FPGAs
- Title(参考訳): FPGA上のデータレート対応高速CNN推論
- Authors: Tobias Habermann, Martin Kumm,
- Abstract要約: FPGA上のCNNアクセラレータは、各レイヤの計算を対応するハードウェアユニットに直接マッピングすることで、低レイテンシと高スループットを実現する。
プーリングやストライド畳み込みといったレイヤは、入力に関して出力時のデータを削減し、以下のレイヤのデータレートに強く影響します。
本稿では,マルチピクセル処理のためのデータレート対応CNNアクセラレータアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataflow-based CNN accelerators on FPGAs achieve low latency and high throughput by mapping computations of each layer directly to corresponding hardware units. However, layers such as pooling and strided convolutions reduce the data at their output with respect to their input, strongly effecting the data rate of the following layers. This leads to underutilization in fully unrolled designs. While prior work introduced data-rate-aware layer-wise adaptation, determining the most efficient implementation remains challenging. This paper presents a data-rate-aware CNN accelerator architecture for multi-pixel processing. Building on existing analytical models, the proposed method performs design-space exploration to identify configurations that improve hardware utilization and resource efficiency while preserving continuous flow of data, keeping all hardware units busy. Experimental results show substantial reductions in arithmetic resources compared to previous designs, enabling efficient implementation of complex CNNs on a single FPGA across a wide range of data rates.
- Abstract(参考訳): FPGA上のデータフローベースのCNNアクセラレータは、各レイヤの計算を対応するハードウェアユニットに直接マッピングすることで、低レイテンシと高スループットを実現する。
しかし、プーリングやストライド畳み込みのようなレイヤは、入力に関して出力時のデータを減少させ、以下のレイヤのデータレートに強く影響する。
このことは、完全にロールされていない設計において、未利用に繋がる。
以前の作業では、データレート対応の層適応が導入されたが、最も効率的な実装を決定することは依然として難しい。
本稿では,マルチピクセル処理のためのデータレート対応CNNアクセラレータアーキテクチャを提案する。
提案手法は,既存の解析モデルに基づいて設計空間探索を行い,データの連続的な流れを保ちながらハードウェア利用率と資源効率を向上させる構成を同定し,すべてのハードウェアユニットを忙しくする。
実験の結果,従来の設計に比べて演算資源が大幅に削減され,データレートの幅が広い単一FPGA上で複雑なCNNを効率的に実装できるようになった。
関連論文リスト
- Data-Driven Deep MIMO Detection:Network Architectures and Generalization Analysis [50.20709408241935]
本稿では,ネットワーク・オブ・MLPにおける完全データ駆動型DeepSIC検出の検証を提案する。
このようなアーキテクチャでは、グラフニューラルネットワーク(GNN)を使用したグラフベースのメッセージパッシングプロセスとして、DeepSICをアップグレードすることができる。
GNNSICは、訓練可能なパラメータが大幅に少ないDeepSICに匹敵する優れた表現性を達成する。
論文 参考訳(メタデータ) (2026-02-13T04:38:51Z) - Continuous-Flow Data-Rate-Aware CNN Inference on FPGA [6.473184145566098]
この研究は、データレート対応の連続フローCNNアーキテクチャを設計するための新しいアプローチを示す。
提案手法は,データレートの低い信号をインターリーブし,ハードウェアユニットを共有することにより,ハードウェア利用率を100%近く確保する。
その結果,MobileNetのような複雑なCNNを単一FPGA上で高いスループットで実装できる計算論理の保存が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T17:27:19Z) - I2E: Real-Time Image-to-Event Conversion for High-Performance Spiking Neural Networks [5.758857776572054]
スパイキングニューラルネットワーク(SNN)はエネルギー効率の高い計算を約束するが、その採用はイベントストリームデータの重大な不足によって妨げられる。
静的画像を高忠実度イベントストリームに変換することで、このボトルネックを解決するアルゴリズムフレームワークであるI2Eを導入する。
I2Eは、従来の手法よりも300倍高速な変換速度を実現し、SNNトレーニングのオンザフライデータ拡張を可能にする。
生成されたI2E-ImageNetデータセットに基づいてトレーニングされたSNNは、最先端の精度が60.50%に達する。
論文 参考訳(メタデータ) (2025-11-11T10:05:17Z) - Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。
高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文 参考訳(メタデータ) (2025-03-03T07:31:40Z) - A Data-Driven Approach to Dataflow-Aware Online Scheduling for Graph Neural Network Inference [3.734578883171713]
GNN推論におけるデータフローを考慮した遅延予測のためのデータ駆動フレームワークを提案する。
我々の回帰器は、与えられたグラフに対して最大91.28%の精度で最適なデータフローを予測でき、平均絶対パーセンテージ誤差(MAPE)は3.78%である。
本稿では、これらの回帰器を用いてスケジューリング決定を強化するオンラインスケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-25T12:38:59Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文 参考訳(メタデータ) (2024-06-05T09:25:18Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - KAPLA: Pragmatic Representation and Fast Solving of Scalable NN
Accelerator Dataflow [0.0]
汎用的で最適化され、高速なデータフロー解決器KAPLAを構築し、効果的な妥当性チェックと効率推定により設計空間を探索する。
KAPLAは、トレーニングと推論のための結果データフローにおいて、わずか2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。
また、ランダムおよび機械学習ベースのアプローチよりも優れており、より最適化された結果と桁違いに高速な検索スピードアップを実現している。
論文 参考訳(メタデータ) (2023-06-09T03:12:42Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。