論文の概要: Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA
- arxiv url: http://arxiv.org/abs/2003.12449v1
- Date: Tue, 24 Mar 2020 09:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:09:39.582554
- Title: Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA
- Title(参考訳): FPGA上でのメモリ効率の良いデータフロー推論高速化のための進化的ビンパッキング
- Authors: Mairin Kroes, Lucian Petrica, Sorin Cotofana, Michaela Blott
- Abstract要約: FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、エネルギー効率の向上とレイテンシの低下を実証している。
しかし、CNNパラメータメモリの形状複合体は通常FPGAオンチップメモリ(OCM)にうまくマッピングされない。
FPGA OCMに対するCNNパラメータのマッピング効率を向上させる設計手法を提案する。
- 参考スコア(独自算出の注目度): 2.3395728784538767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural network (CNN) dataflow inference accelerators
implemented in Field Programmable Gate Arrays (FPGAs) have demonstrated
increased energy efficiency and lower latency compared to CNN execution on CPUs
or GPUs. However, the complex shapes of CNN parameter memories do not typically
map well to FPGA on-chip memories (OCM), which results in poor OCM utilization
and ultimately limits the size and types of CNNs which can be effectively
accelerated on FPGAs. In this work, we present a design methodology that
improves the mapping efficiency of CNN parameters to FPGA OCM. We frame the
mapping as a bin packing problem and determine that traditional bin packing
algorithms are not well suited to solve the problem within FPGA- and
CNN-specific constraints. We hybridize genetic algorithms and simulated
annealing with traditional bin packing heuristics to create flexible mappers
capable of grouping parameter memories such that each group optimally fits FPGA
on-chip memories. We evaluate these algorithms on a variety of FPGA inference
accelerators. Our hybrid mappers converge to optimal solutions in a matter of
seconds for all CNN use-cases, achieve an increase of up to 65% in OCM
utilization efficiency for deep CNNs, and are up to 200$\times$ faster than
current state-of-the-art simulated annealing approaches.
- Abstract(参考訳): FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、CPUやGPU上でのCNN実行と比較して、エネルギー効率とレイテンシが向上している。
しかし、CNNパラメータメモリの複雑な形状は、一般的にFPGAオンチップメモリ(OCM)にうまく対応せず、結果としてOCM利用が低下し、FPGA上で効果的に加速できるCNNのサイズとタイプが制限される。
本研究では,CNNパラメータのFPGA OCMへのマッピング効率を向上させる設計手法を提案する。
提案手法は, 従来の bin packing アルゴリズムがFPGA や CNN 特有の制約の解決に適していないことを判断する。
遺伝的アルゴリズムと従来のビンパッキングヒューリスティックとをハイブリッド化し,パラメータメモリをグループ化し,fpgaオンチップメモリに最適適合するフレキシブルマッパーを作成する。
これらのアルゴリズムをFPGA推論アクセラレータ上で評価する。
我々のハイブリッドマッパーは、すべてのCNNユースケースに対して数秒で最適解に収束し、深層CNNのOCM利用効率を最大65%向上させ、現在の最先端のシミュレーションアニールアプローチよりも200$\times$高速となる。
関連論文リスト
- H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation [13.681095158525514]
unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
論文 参考訳(メタデータ) (2023-07-25T11:19:21Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights
Generation [17.142094527372993]
singlevolution engineはfpgaベースの畳み込みニューラルネットワーク(cnns)の一般的な設計選択となっている。
本研究では,実行時の重みを減圧するプレコンステージを導入するモデル群に対して,cnnエンジンの設計が与える影響について検討する。
メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,重みのオンザフライ生成を可能にするハードウェアコンポーネントを提案する。
論文 参考訳(メタデータ) (2021-03-09T18:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。