論文の概要: ASC: Adaptive Scale Feature Map Compression for Deep Neural Network
- arxiv url: http://arxiv.org/abs/2312.08176v1
- Date: Wed, 13 Dec 2023 14:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:11:57.793413
- Title: ASC: Adaptive Scale Feature Map Compression for Deep Neural Network
- Title(参考訳): asc:深層ニューラルネットワークのための適応的スケール特徴マップ圧縮
- Authors: Yuan Yao and Tian-Sheuan Chang
- Abstract要約: 本稿では,特徴写像の特異性を利用した適応的スケール特徴写像圧縮手法を提案する。
28nmのTSMC実装では、8ビット版のゲート数は6135である。
32$times$のスループット向上は、DDR5-6400の理論的帯域幅をわずか7.65$timeのハードウェアコストで満たす。
- 参考スコア(独自算出の注目度): 6.168970798989662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep-learning accelerators are increasingly in demand; however, their
performance is constrained by the size of the feature map, leading to high
bandwidth requirements and large buffer sizes. We propose an adaptive scale
feature map compression technique leveraging the unique properties of the
feature map. This technique adopts independent channel indexing given the weak
channel correlation and utilizes a cubical-like block shape to benefit from
strong local correlations. The method further optimizes compression using a
switchable endpoint mode and adaptive scale interpolation to handle unimodal
data distributions, both with and without outliers. This results in 4$\times$
and up to 7.69$\times$ compression rates for 16-bit data in constant and
variable bitrates, respectively. Our hardware design minimizes area cost by
adjusting interpolation scales, which facilitates hardware sharing among
interpolation points. Additionally, we introduce a threshold concept for
straightforward interpolation, preventing the need for intricate hardware. The
TSMC 28nm implementation showcases an equivalent gate count of 6135 for the
8-bit version. Furthermore, the hardware architecture scales effectively, with
only a sublinear increase in area cost. Achieving a 32$\times$ throughput
increase meets the theoretical bandwidth of DDR5-6400 at just 7.65$\times$ the
hardware cost.
- Abstract(参考訳): ディープラーニングアクセラレータはますます需要が増しているが、そのパフォーマンスはフィーチャーマップのサイズによって制約され、高い帯域幅要求と大きなバッファサイズにつながる。
本稿では,特徴マップのユニークな特性を利用した適応的スケール特徴マップ圧縮手法を提案する。
この手法は弱チャネル相関を考慮した独立チャネルインデクシングを採用し、立方体のようなブロック形状を利用して強い局所相関の恩恵を受ける。
この方法はさらに、スイッチ可能なエンドポイントモードと適応的スケール補間を使用して圧縮を最適化し、異常値の有無に関わらずユニモーダルデータ分布を処理する。
その結果、16ビットのデータは定数と可変ビットレートでそれぞれ4$\times$と7.69$\times$の圧縮レートとなる。
ハードウェア設計は補間スケールを調整することで面積コストを最小化し,補間ポイント間のハードウェア共有を容易にする。
さらに,簡単な補間のためのしきい値概念を導入し,複雑なハードウェアの必要性を回避した。
TSMC 28nmの実装では、8ビット版のゲート数は6135である。
さらに、ハードウェアアーキテクチャは、面積コストのサブ線形増加のみで、効果的にスケールする。
32$\times$スループットの向上は、DDR5-6400の理論的帯域幅をわずか7.65$\times$ハードウェアコストで達成する。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。
並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。
デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文 参考訳(メタデータ) (2023-01-11T18:59:46Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Memory-Efficient CNN Accelerator Based on Interlayer Feature Map
Compression [9.466720378654248]
層間特徴マップをバッファリングするためには、大きなオンチップメモリが必要である。
層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。
403GOPSピークスループットと1.4x3.3x層間特徴マップの削減を実現している。
論文 参考訳(メタデータ) (2021-10-12T16:50:35Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。