Fugu-MT 論文翻訳(概要): Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block Regularization of Activation Maps

論文の概要: Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block Regularization of Activation Maps

arxiv url: http://arxiv.org/abs/2205.00779v1
Date: Mon, 2 May 2022 09:57:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-03 20:28:33.815622
Title: Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block Regularization of Activation Maps
Title（参考訳）: Zebra: アクティベーションマップのゼロブロック正規化によるCNN加速器のメモリ帯域幅削減
Authors: Hsu-Tung Shih and Tian-Sheuan Chang
Abstract要約: アクティベーションマップ(Zebra)のゼロブロック正規化により,非重要なブロックを動的に刈り取ることを提案する。実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅の70%を,ネットワークスライミングの組み合わせにより1%の精度低下と2%の精度向上で削減できることがわかった。
参考スコア（独自算出の注目度）: 0.1246030133914898
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The large amount of memory bandwidth between local buffer and external DRAM has become the speedup bottleneck of CNN hardware accelerators, especially for activation maps. To reduce memory bandwidth, we propose to learn pruning unimportant blocks dynamically with zero block regularization of activation maps (Zebra). This strategy has low computational overhead and could easily integrate with other pruning methods for better performance. The experimental results show that the proposed method can reduce 70\% of memory bandwidth for Resnet-18 on Tiny-Imagenet within 1\% accuracy drops and 2\% accuracy gain with the combination of Network Slimming.
Abstract（参考訳）: ローカルバッファと外部DRAMの間のメモリ帯域幅は、特にアクティベーションマップにおいてCNNハードウェアアクセラレーターの高速化ボトルネックとなっている。メモリ帯域幅を削減するため,アクティベーションマップ(Zebra)のゼロブロック正規化により,重要でないブロックを動的にプルーニングすることを提案する。この戦略は計算オーバーヘッドが低く、他のプルーニング手法と容易に統合でき、性能が向上する。実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅を,ネットワークスライミングと組み合わせて1\%の精度低下と2\%の精度向上で削減できることがわかった。

関連論文リスト

DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables [60.95483707212802]
DnLUTは、リソース消費を最小限に抑えながら高品質なカラーイメージを実現する、超効率的なルックアップテーブルベースのフレームワークである。 Pairwise Channel Mixer(PCM)は、チャネル間の相関関係と空間的依存関係を並列に効果的にキャプチャし、L字型畳み込み設計により受容界のカバレッジを最大化する。これらのコンポーネントをトレーニング後に最適化されたルックアップテーブルに変換することで、DnLUTは、CNNの競合であるDnCNNと比較して500KBのストレージと0.1%のエネルギー消費しか必要とせず、20倍高速な推論を実現している。
論文参考訳（メタデータ） (2025-03-20T08:15:29Z)
COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-12T11:31:25Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks [2.9835839258066015]
デバイス上での視覚タスクにメモリ効率の良いCNN(畳み込みニューラルネットワーク)を導入する。提案したネットワークは、競合するトップ1の精度(61.58%)を達成しつつ、非常に低いメモリ(63KB)でImageNetを分類する。我々の知る限り、提案するネットワークのメモリ使用量は最先端のメモリ効率ネットワークよりもはるかに少ない。
論文参考訳（メタデータ） (2024-08-07T10:04:04Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文参考訳（メタデータ） (2021-07-14T19:45:49Z)
ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。 ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文参考訳（メタデータ） (2021-04-29T05:50:54Z)
Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。 SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文参考訳（メタデータ） (2021-01-02T12:09:49Z)
SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation [47.338987325018614]
SegBlocksは、その複雑さに基づいて、画像領域の処理解像度を動的に調整する。複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。提案手法は,SwiftNet-RN18の浮動小数点演算数を60%削減し,推論速度を50%向上させる。
論文参考訳（メタデータ） (2020-11-24T11:05:07Z)
On the Impact of Partial Sums on Interconnect Bandwidth and Memory Accesses in a DNN Accelerator [5.429955391775968]
専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対処するために設計されています。本稿では,帯域幅の最適化のために特徴マップを分割する一次解析手法を提案する。最適パーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を実現することができる。
論文参考訳（メタデータ） (2020-11-02T09:44:50Z)
LRNNet: A Light-Weighted Network with Efficient Reduced Non-Local Operation for Real-Time Semantic Segmentation [15.010572800399057]
本稿では,高効率かつリアルタイムなセマンティックセマンティックセグメンテーションを実現するために,LRNNetを用いた軽量ネットワークを提案する。実験では、軽量、スピード、計算、精度のトレードオフが優れています。
論文参考訳（メタデータ） (2020-06-04T08:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。