論文の概要: unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights
Generation
- arxiv url: http://arxiv.org/abs/2103.05600v1
- Date: Tue, 9 Mar 2021 18:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 15:02:29.770205
- Title: unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights
Generation
- Title(参考訳): unzipFPGA: FPGAベースのCNNエンジンをオンザフライで生成する
- Authors: Stylianos I. Venieris, Javier Fernandez-Marques, Nicholas D. Lane
- Abstract要約: singlevolution engineはfpgaベースの畳み込みニューラルネットワーク(cnns)の一般的な設計選択となっている。
本研究では,実行時の重みを減圧するプレコンステージを導入するモデル群に対して,cnnエンジンの設計が与える影響について検討する。
メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,重みのオンザフライ生成を可能にするハードウェアコンポーネントを提案する。
- 参考スコア(独自算出の注目度): 17.142094527372993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single computation engines have become a popular design choice for FPGA-based
convolutional neural networks (CNNs) enabling the deployment of diverse models
without fabric reconfiguration. This flexibility, however, often comes with
significantly reduced performance on memory-bound layers and resource
underutilisation due to suboptimal mapping of certain layers on the engine's
fixed configuration. In this work, we investigate the implications in terms of
CNN engine design for a class of models that introduce a pre-convolution stage
to decompress the weights at run time. We refer to these approaches as
on-the-fly. To minimise the negative impact of limited bandwidth on
memory-bound layers, we present a novel hardware component that enables the
on-chip on-the-fly generation of weights. We further introduce an input
selective processing element (PE) design that balances the load between PEs on
suboptimally mapped layers. Finally, we present unzipFPGA, a framework to train
on-the-fly models and traverse the design space to select the highest
performing CNN engine configuration. Quantitative evaluation shows that
unzipFPGA yields an average speedup of 2.14x and 71% over optimised status-quo
and pruned CNN engines under constrained bandwidth and up to 3.69x higher
performance density over the state-of-the-art FPGA-based CNN accelerators.
- Abstract(参考訳): シングル計算エンジンはFPGAベースの畳み込みニューラルネットワーク(CNN)において、ファブリック再構成なしで多様なモデルのデプロイを可能にする一般的な設計選択となっている。
しかし、この柔軟性は、しばしば、エンジンの固定構成上の特定の層を最適にマッピングするため、メモリバウンド層のパフォーマンスが大幅に低下し、リソースの不足が伴います。
本研究では,CNNエンジン設計において,実行時の重みを圧縮する事前畳み込みステージを導入したモデル群について,その意味を考察する。
これらのアプローチをオンザフライと呼びます。
メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,オンチップオンザフライ重み生成を可能にするハードウェアコンポーネントを提案する。
さらに、サブ最適化された層上のPE間の負荷を均衡させる入力選択処理素子(PE)の設計を導入する。
最後に、UnzipFPGA、オンザフライモデルを訓練し、設計空間を横断して最高の性能のCNNエンジン構成を選択するフレームワークを紹介します。
定量的評価は、UnzipFPGAは、制限された帯域幅と最新のFPGAベースのCNNアクセラレータよりも最大3.69倍高いパフォーマンス密度の下で最適化されたステータスクォークおよびprunedCNNエンジンよりも平均2.14倍と71%のスピードアップをもたらすことを示している。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation [13.681095158525514]
unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
論文 参考訳(メタデータ) (2023-07-25T11:19:21Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA [2.3395728784538767]
FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、エネルギー効率の向上とレイテンシの低下を実証している。
しかし、CNNパラメータメモリの形状複合体は通常FPGAオンチップメモリ(OCM)にうまくマッピングされない。
FPGA OCMに対するCNNパラメータのマッピング効率を向上させる設計手法を提案する。
論文 参考訳(メタデータ) (2020-03-24T09:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。