論文の概要: Memory-Efficient CNN Accelerator Based on Interlayer Feature Map
Compression
- arxiv url: http://arxiv.org/abs/2110.06155v1
- Date: Tue, 12 Oct 2021 16:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 16:32:41.402934
- Title: Memory-Efficient CNN Accelerator Based on Interlayer Feature Map
Compression
- Title(参考訳): 層間特徴マップ圧縮に基づくメモリ効率cnn加速器
- Authors: Zhuang Shao, Xiaoliang Chen, Li Du, Lei Chen, Yuan Du, Wei Zhuang,
Huadong Wei, Chenjia Xie, and Zhongfeng Wang
- Abstract要約: 層間特徴マップをバッファリングするためには、大きなオンチップメモリが必要である。
層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。
403GOPSピークスループットと1.4x3.3x層間特徴マップの削減を実現している。
- 参考スコア(独自算出の注目度): 9.466720378654248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing deep convolutional neural networks (CNNs) generate massive
interlayer feature data during network inference. To maintain real-time
processing in embedded systems, large on-chip memory is required to buffer the
interlayer feature maps. In this paper, we propose an efficient hardware
accelerator with an interlayer feature compression technique to significantly
reduce the required on-chip memory size and off-chip memory access bandwidth.
The accelerator compresses interlayer feature maps through transforming the
stored data into frequency domain using hardware-implemented 8x8 discrete
cosine transform (DCT). The high-frequency components are removed after the DCT
through quantization. Sparse matrix compression is utilized to further compress
the interlayer feature maps. The on-chip memory allocation scheme is designed
to support dynamic configuration of the feature map buffer size and scratch pad
size according to different network-layer requirements. The hardware
accelerator combines compression, decompression, and CNN acceleration into one
computing stream, achieving minimal compressing and processing delay. A
prototype accelerator is implemented on an FPGA platform and also synthesized
in TSMC 28-nm COMS technology. It achieves 403GOPS peak throughput and
1.4x~3.3x interlayer feature map reduction by adding light hardware area
overhead, making it a promising hardware accelerator for intelligent IoT
devices.
- Abstract(参考訳): 既存の深層畳み込みニューラルネットワーク(cnns)は、ネットワーク推論中に大量の層間特徴データを生成する。
組込みシステムにおけるリアルタイム処理を維持するためには,層間特徴マップのバッファリングには,大きなオンチップメモリが必要となる。
本稿では,オンチップメモリサイズとオフチップメモリアクセス帯域幅を大幅に削減するために,層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。
アクセラレータは、ハードウェア実装8x8離散コサイン変換(DCT)を用いて、記憶されたデータを周波数領域に変換することにより、層間特徴写像を圧縮する。
高周波成分は、量子化によりDCT後に除去される。
スパース行列圧縮を用いて、層間特徴写像をさらに圧縮する。
オンチップメモリ割り当て方式は、異なるネットワーク層要求に応じて特徴マップバッファサイズとスクラッチパッドサイズの動的構成をサポートするように設計されている。
ハードウェアアクセラレータは圧縮、減圧縮、cnnの加速を1つの計算ストリームに組み合わせ、最小の圧縮と処理遅延を達成する。
FPGAプラットフォーム上でプロトタイプアクセラレータが実装され、TSMC 28nm COMS技術で合成される。
403GOPSピークスループットと1.4x~3.3x層間特徴マップの削減を実現し、軽量ハードウェア領域のオーバーヘッドを追加し、インテリジェントIoTデバイスのハードウェアアクセラレータとして期待できる。
関連論文リスト
- H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Differentiable Product Quantization for Memory Efficient Camera Relocalization [9.9838111920925]
我々は,記述子量子化-復号化を行う軽量シーン固有オートエンコーダネットワークをエンドツーエンドの微分可能な方法で訓練する。
その結果,1MBのローカルディスクリプタメモリでは,提案したネットワークとマップ圧縮の相乗的組み合わせが最高の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-07-22T11:05:58Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - ASC: Adaptive Scale Feature Map Compression for Deep Neural Network [6.168970798989662]
本稿では,特徴写像の特異性を利用した適応的スケール特徴写像圧縮手法を提案する。
28nmのTSMC実装では、8ビット版のゲート数は6135である。
32$times$のスループット向上は、DDR5-6400の理論的帯域幅をわずか7.65$timeのハードウェアコストで満たす。
論文 参考訳(メタデータ) (2023-12-13T14:36:08Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Sparse Periodic Systolic Dataflow for Lowering Latency and Power
Dissipation of Convolutional Neural Network Accelerators [3.043665249713003]
本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。
PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。
論文 参考訳(メタデータ) (2022-06-30T19:16:46Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - On the Impact of Partial Sums on Interconnect Bandwidth and Memory
Accesses in a DNN Accelerator [5.429955391775968]
専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対処するために設計されています。
本稿では,帯域幅の最適化のために特徴マップを分割する一次解析手法を提案する。
最適パーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を実現することができる。
論文 参考訳(メタデータ) (2020-11-02T09:44:50Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。