論文の概要: GrateTile: Efficient Sparse Tensor Tiling for CNN Processing
- arxiv url: http://arxiv.org/abs/2009.08685v1
- Date: Fri, 18 Sep 2020 08:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:41:42.136243
- Title: GrateTile: Efficient Sparse Tensor Tiling for CNN Processing
- Title(参考訳): GrateTile: CNN処理のための効率的なスパーステンソルタイリング
- Authors: Yu-Sheng Lin, Hung Chang Lu, Yang-Bin Tsao, Yi-Min Chih, Wei-Chao
Chen, Shao-Yi Chien
- Abstract要約: GrateTileは、スパースCNN特徴マップ(アクティベーション)のための効率的でハードウェアフレンドリーなデータストレージスキームである
データは不均一サイズの拡張子に分割し、インデックスのオーバーヘッドが小さく、圧縮されたがランダムにアクセス可能なフォーマットに格納する。
この設計により、現代のCNNアクセラレーターは、タイル状の処理方法でサブテンソルをオンザフライでフェッチし、圧縮することができる。
- 参考スコア(独自算出の注目度): 16.695394742123717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose GrateTile, an efficient, hardwarefriendly data storage scheme for
sparse CNN feature maps (activations). It divides data into uneven-sized
subtensors and, with small indexing overhead, stores them in a compressed yet
randomly accessible format. This design enables modern CNN accelerators to
fetch and decompressed sub-tensors on-the-fly in a tiled processing manner.
GrateTile is suitable for architectures that favor aligned, coalesced data
access, and only requires minimal changes to the overall architectural design.
We simulate GrateTile with state-of-the-art CNNs and show an average of 55%
DRAM bandwidth reduction while using only 0.6% of feature map size for indexing
storage.
- Abstract(参考訳): sparse cnn機能マップ(アクティベーション)のための効率的なハードウェアフレンドリなデータストレージスキームであるgratetileを提案する。
データを不均一なサイズのサブステンサに分割し、小さなインデクシングオーバヘッドで、圧縮され、ランダムにアクセス可能なフォーマットに格納する。
この設計により、現代のCNNアクセラレーターは、タイル状の処理方法でサブテンソルをオンザフライでフェッチし、圧縮することができる。
gratetileはアライン化され、結合されたデータアクセスを好むアーキテクチャに適しているが、全体的なアーキテクチャ設計に最小限の変更しか必要ではない。
我々は、GrateTileを最先端CNNでシミュレートし、インデックス化ストレージでは、機能マップサイズのわずか0.6%を使用しながら、平均55%のDRAM帯域幅削減を示す。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - ASC: Adaptive Scale Feature Map Compression for Deep Neural Network [6.168970798989662]
本稿では,特徴写像の特異性を利用した適応的スケール特徴写像圧縮手法を提案する。
28nmのTSMC実装では、8ビット版のゲート数は6135である。
32$times$のスループット向上は、DDR5-6400の理論的帯域幅をわずか7.65$timeのハードウェアコストで満たす。
論文 参考訳(メタデータ) (2023-12-13T14:36:08Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Zebra: Memory Bandwidth Reduction for CNN Accelerators With Zero Block
Regularization of Activation Maps [0.1246030133914898]
アクティベーションマップ(Zebra)のゼロブロック正規化により,非重要なブロックを動的に刈り取ることを提案する。
実験結果から,Tiny-Imagenet上でのResnet-18のメモリ帯域幅の70%を,ネットワークスライミングの組み合わせにより1%の精度低下と2%の精度向上で削減できることがわかった。
論文 参考訳(メタデータ) (2022-05-02T09:57:17Z) - Compressing CNN Kernels for Videos Using Tucker Decompositions: Towards
Lightweight CNN Applications [2.191505742658975]
畳み込みニューラルネットワーク(CNN)は、ビジュアルコンピューティングの分野における最先端技術である。
CNNの大きな問題は、大量の浮動小数点演算(FLOP)が大きな入力に対して畳み込みを行うのに必要なものである。
本稿では,画像のための事前学習ネットワークの畳み込みカーネルを圧縮するタッカー分解法を提案する。
論文 参考訳(メタデータ) (2022-03-10T11:53:53Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - PENNI: Pruned Kernel Sharing for Efficient CNN Inference [41.050335599000036]
最先端(SOTA)CNNは、様々なタスクにおいて優れたパフォーマンスを達成する。
その高い計算要求と膨大な数のパラメータにより、リソース制約のあるデバイスにこれらのSOTA CNNをデプロイすることは困難である。
本稿では,CNNモデル圧縮フレームワークであるPENNIを提案する。
論文 参考訳(メタデータ) (2020-05-14T16:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。