論文の概要: Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block
Regularization of Activation Maps
- arxiv url: http://arxiv.org/abs/2205.00779v1
- Date: Mon, 2 May 2022 09:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 20:28:33.815622
- Title: Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block
Regularization of Activation Maps
- Title(参考訳): Zebra: アクティベーションマップのゼロブロック正規化によるCNN加速器のメモリ帯域幅削減
- Authors: Hsu-Tung Shih and Tian-Sheuan Chang
- Abstract要約: アクティベーションマップ(Zebra)のゼロブロック正規化により,非重要なブロックを動的に刈り取ることを提案する。
実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅の70%を,ネットワークスライミングの組み合わせにより1%の精度低下と2%の精度向上で削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.1246030133914898
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The large amount of memory bandwidth between local buffer and external DRAM
has become the speedup bottleneck of CNN hardware accelerators, especially for
activation maps. To reduce memory bandwidth, we propose to learn pruning
unimportant blocks dynamically with zero block regularization of activation
maps (Zebra). This strategy has low computational overhead and could easily
integrate with other pruning methods for better performance. The experimental
results show that the proposed method can reduce 70\% of memory bandwidth for
Resnet-18 on Tiny-Imagenet within 1\% accuracy drops and 2\% accuracy gain with
the combination of Network Slimming.
- Abstract(参考訳): ローカルバッファと外部DRAMの間のメモリ帯域幅は、特にアクティベーションマップにおいてCNNハードウェアアクセラレーターの高速化ボトルネックとなっている。
メモリ帯域幅を削減するため,アクティベーションマップ(Zebra)のゼロブロック正規化により,重要でないブロックを動的にプルーニングすることを提案する。
この戦略は計算オーバーヘッドが低く、他のプルーニング手法と容易に統合でき、性能が向上する。
実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅を,ネットワークスライミングと組み合わせて1\%の精度低下と2\%の精度向上で削減できることがわかった。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks [2.9835839258066015]
デバイス上での視覚タスクにメモリ効率の良いCNN(畳み込みニューラルネットワーク)を導入する。
提案したネットワークは、競合するトップ1の精度(61.58%)を達成しつつ、非常に低いメモリ(63KB)でImageNetを分類する。
我々の知る限り、提案するネットワークのメモリ使用量は最先端のメモリ効率ネットワークよりもはるかに少ない。
論文 参考訳(メタデータ) (2024-08-07T10:04:04Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。
指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。
SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文 参考訳(メタデータ) (2021-01-02T12:09:49Z) - SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time
Segmentation [47.338987325018614]
SegBlocksは、その複雑さに基づいて、画像領域の処理解像度を動的に調整する。
複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。
提案手法は,SwiftNet-RN18の浮動小数点演算数を60%削減し,推論速度を50%向上させる。
論文 参考訳(メタデータ) (2020-11-24T11:05:07Z) - On the Impact of Partial Sums on Interconnect Bandwidth and Memory
Accesses in a DNN Accelerator [5.429955391775968]
専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対処するために設計されています。
本稿では,帯域幅の最適化のために特徴マップを分割する一次解析手法を提案する。
最適パーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を実現することができる。
論文 参考訳(メタデータ) (2020-11-02T09:44:50Z) - LRNNet: A Light-Weighted Network with Efficient Reduced Non-Local
Operation for Real-Time Semantic Segmentation [15.010572800399057]
本稿では,高効率かつリアルタイムなセマンティックセマンティックセグメンテーションを実現するために,LRNNetを用いた軽量ネットワークを提案する。
実験では、軽量、スピード、計算、精度のトレードオフが優れています。
論文 参考訳(メタデータ) (2020-06-04T08:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。