論文の概要: Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation
- arxiv url: http://arxiv.org/abs/2307.13412v1
- Date: Tue, 25 Jul 2023 11:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:24:51.229074
- Title: Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation
- Title(参考訳): オンザフライ重み発生によるCNNエンジンのメモリウォール効果の緩和
- Authors: Stylianos I. Venieris, Javier Fernandez-Marques, Nicholas D. Lane
- Abstract要約: unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
- 参考スコア(独自算出の注目度): 13.681095158525514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unprecedented accuracy of convolutional neural networks (CNNs) across a
broad range of AI tasks has led to their widespread deployment in mobile and
embedded settings. In a pursuit for high-performance and energy-efficient
inference, significant research effort has been invested in the design of
FPGA-based CNN accelerators. In this context, single computation engines
constitute a popular approach to support diverse CNN modes without the overhead
of fabric reconfiguration. Nevertheless, this flexibility often comes with
significantly degraded performance on memory-bound layers and resource
underutilisation due to the suboptimal mapping of certain layers on the
engine's fixed configuration. In this work, we investigate the implications in
terms of CNN engine design for a class of models that introduce a
pre-convolution stage to decompress the weights at run time. We refer to these
approaches as on-the-fly. This paper presents unzipFPGA, a novel CNN inference
system that counteracts the limitations of existing CNN engines. The proposed
framework comprises a novel CNN hardware architecture that introduces a weights
generator module that enables the on-chip on-the-fly generation of weights,
alleviating the negative impact of limited bandwidth on memory-bound layers. We
further enhance unzipFPGA with an automated hardware-aware methodology that
tailors the weights generation mechanism to the target CNN-device pair, leading
to an improved accuracy-performance balance. Finally, we introduce an input
selective processing element (PE) design that balances the load between PEs in
suboptimally mapped layers. The proposed framework yields hardware designs that
achieve an average of 2.57x performance efficiency gain over highly optimised
GPU designs for the same power constraints and up to 3.94x higher performance
density over a diverse range of state-of-the-art FPGA-based CNN accelerators.
- Abstract(参考訳): 幅広いAIタスクにわたる畳み込みニューラルネットワーク(CNN)の前例のない精度は、モバイルおよび組み込み環境に広く展開するに至った。
高性能でエネルギー効率の高い推論を追求するために、FPGAベースのCNNアクセラレータの設計に多大な研究努力が注がれている。
この文脈では、単一計算エンジンは、ファブリックの再設定のオーバーヘッドなしに多様なcnnモードをサポートする一般的なアプローチを構成する。
しかしながら、この柔軟性は、エンジンの固定された構成上の特定のレイヤの最適以下のマッピングのため、メモリバウンドなレイヤとリソースの未利用で著しく低下することが多い。
本研究では,CNNエンジン設計において,実行時の重みを圧縮する事前畳み込みステージを導入したモデル群について,その意味を考察する。
これらのアプローチをオンザフライと呼ぶ。
本稿では,既存のCNNエンジンの限界に対応する新しいCNN推論システムであるunzipFPGAを提案する。
提案フレームワークは、メモリバウンド層に対する帯域幅の制限による負の影響を緩和し、オンチップオンザフライでの重み生成を可能にする重み生成モジュールを導入する新しいCNNハードウェアアーキテクチャを含む。
さらに,ターゲットのcnn-deviceペアに重み付け生成機構を調整する自動ハードウェアアウェア手法により,unzipfpgaをさらに強化し,精度と性能のバランスが向上した。
最後に、サブ最適マッピング層におけるPE間の負荷のバランスをとる入力選択処理要素(PE)の設計を提案する。
提案したフレームワークは、同じ電力制約に対して高度に最適化されたGPU設計よりも平均2.57倍の性能向上を実現し、最先端のFPGAベースのCNNアクセラレータよりも最大3.94倍高い性能密度を実現する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Photonic Reconfigurable Accelerators for Efficient Inference of CNNs
with Mixed-Sized Tensors [0.22843885788439797]
光マイクロリング共振器(MRR)ベースのハードウェアアクセラレータは、破壊的なスピードアップとエネルギー効率の改善をもたらすことが示されている。
従来のMRRベースのCNNアクセラレータは、混合サイズのテンソルを持つCNNに対して、効率的な適応性を提供できない。
MRRベースのCNNアクセラレータに再構成性を導入する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-12T03:18:00Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights
Generation [17.142094527372993]
singlevolution engineはfpgaベースの畳み込みニューラルネットワーク(cnns)の一般的な設計選択となっている。
本研究では,実行時の重みを減圧するプレコンステージを導入するモデル群に対して,cnnエンジンの設計が与える影響について検討する。
メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,重みのオンザフライ生成を可能にするハードウェアコンポーネントを提案する。
論文 参考訳(メタデータ) (2021-03-09T18:19:41Z) - Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA [2.3395728784538767]
FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、エネルギー効率の向上とレイテンシの低下を実証している。
しかし、CNNパラメータメモリの形状複合体は通常FPGAオンチップメモリ(OCM)にうまくマッピングされない。
FPGA OCMに対するCNNパラメータのマッピング効率を向上させる設計手法を提案する。
論文 参考訳(メタデータ) (2020-03-24T09:55:08Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。