論文の概要: Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block
Regularization of Activation Maps
- arxiv url: http://arxiv.org/abs/2205.00779v1
- Date: Mon, 2 May 2022 09:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 20:28:33.815622
- Title: Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block
Regularization of Activation Maps
- Title(参考訳): Zebra: アクティベーションマップのゼロブロック正規化によるCNN加速器のメモリ帯域幅削減
- Authors: Hsu-Tung Shih and Tian-Sheuan Chang
- Abstract要約: アクティベーションマップ(Zebra)のゼロブロック正規化により,非重要なブロックを動的に刈り取ることを提案する。
実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅の70%を,ネットワークスライミングの組み合わせにより1%の精度低下と2%の精度向上で削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.1246030133914898
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The large amount of memory bandwidth between local buffer and external DRAM
has become the speedup bottleneck of CNN hardware accelerators, especially for
activation maps. To reduce memory bandwidth, we propose to learn pruning
unimportant blocks dynamically with zero block regularization of activation
maps (Zebra). This strategy has low computational overhead and could easily
integrate with other pruning methods for better performance. The experimental
results show that the proposed method can reduce 70\% of memory bandwidth for
Resnet-18 on Tiny-Imagenet within 1\% accuracy drops and 2\% accuracy gain with
the combination of Network Slimming.
- Abstract(参考訳): ローカルバッファと外部DRAMの間のメモリ帯域幅は、特にアクティベーションマップにおいてCNNハードウェアアクセラレーターの高速化ボトルネックとなっている。
メモリ帯域幅を削減するため,アクティベーションマップ(Zebra)のゼロブロック正規化により,重要でないブロックを動的にプルーニングすることを提案する。
この戦略は計算オーバーヘッドが低く、他のプルーニング手法と容易に統合でき、性能が向上する。
実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅を,ネットワークスライミングと組み合わせて1\%の精度低下と2\%の精度向上で削減できることがわかった。
関連論文リスト
- Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。
指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。
SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文 参考訳(メタデータ) (2021-01-02T12:09:49Z) - SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time
Segmentation [47.338987325018614]
SegBlocksは、その複雑さに基づいて、画像領域の処理解像度を動的に調整する。
複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。
提案手法は,SwiftNet-RN18の浮動小数点演算数を60%削減し,推論速度を50%向上させる。
論文 参考訳(メタデータ) (2020-11-24T11:05:07Z) - On the Impact of Partial Sums on Interconnect Bandwidth and Memory
Accesses in a DNN Accelerator [5.429955391775968]
専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対処するために設計されています。
本稿では,帯域幅の最適化のために特徴マップを分割する一次解析手法を提案する。
最適パーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を実現することができる。
論文 参考訳(メタデータ) (2020-11-02T09:44:50Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z) - Improving Memory Utilization in Convolutional Neural Network
Accelerators [16.340620299847384]
本稿では,アクティベーション層を重複させ,メモリをより効率的に利用するためのマッピング手法を提案する。
様々な実世界のオブジェクト検出器ネットワークによる実験により、提案されたマッピング技術により、メモリのアクティベーションを最大32.9%削減できることが示された。
より高解像度のノイズ除去ネットワークでは、活性化メモリの48.8%の節約を実現している。
論文 参考訳(メタデータ) (2020-07-20T09:34:36Z) - LRNNet: A Light-Weighted Network with Efficient Reduced Non-Local
Operation for Real-Time Semantic Segmentation [15.010572800399057]
本稿では,高効率かつリアルタイムなセマンティックセマンティックセグメンテーションを実現するために,LRNNetを用いた軽量ネットワークを提案する。
実験では、軽量、スピード、計算、精度のトレードオフが優れています。
論文 参考訳(メタデータ) (2020-06-04T08:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。