Fugu-MT 論文翻訳(概要): ASC: Adaptive Scale Feature Map Compression for Deep Neural Network

論文の概要: ASC: Adaptive Scale Feature Map Compression for Deep Neural Network

arxiv url: http://arxiv.org/abs/2312.08176v1
Date: Wed, 13 Dec 2023 14:36:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 15:11:57.793413
Title: ASC: Adaptive Scale Feature Map Compression for Deep Neural Network
Title（参考訳）: asc:深層ニューラルネットワークのための適応的スケール特徴マップ圧縮
Authors: Yuan Yao and Tian-Sheuan Chang
Abstract要約: 本稿では,特徴写像の特異性を利用した適応的スケール特徴写像圧縮手法を提案する。 28nmのTSMC実装では、8ビット版のゲート数は6135である。 32$times$のスループット向上は、DDR5-6400の理論的帯域幅をわずか7.65$timeのハードウェアコストで満たす。
参考スコア（独自算出の注目度）: 6.168970798989662
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep-learning accelerators are increasingly in demand; however, their performance is constrained by the size of the feature map, leading to high bandwidth requirements and large buffer sizes. We propose an adaptive scale feature map compression technique leveraging the unique properties of the feature map. This technique adopts independent channel indexing given the weak channel correlation and utilizes a cubical-like block shape to benefit from strong local correlations. The method further optimizes compression using a switchable endpoint mode and adaptive scale interpolation to handle unimodal data distributions, both with and without outliers. This results in 4$\times$ and up to 7.69$\times$ compression rates for 16-bit data in constant and variable bitrates, respectively. Our hardware design minimizes area cost by adjusting interpolation scales, which facilitates hardware sharing among interpolation points. Additionally, we introduce a threshold concept for straightforward interpolation, preventing the need for intricate hardware. The TSMC 28nm implementation showcases an equivalent gate count of 6135 for the 8-bit version. Furthermore, the hardware architecture scales effectively, with only a sublinear increase in area cost. Achieving a 32$\times$ throughput increase meets the theoretical bandwidth of DDR5-6400 at just 7.65$\times$ the hardware cost.
Abstract（参考訳）: ディープラーニングアクセラレータはますます需要が増しているが、そのパフォーマンスはフィーチャーマップのサイズによって制約され、高い帯域幅要求と大きなバッファサイズにつながる。本稿では,特徴マップのユニークな特性を利用した適応的スケール特徴マップ圧縮手法を提案する。この手法は弱チャネル相関を考慮した独立チャネルインデクシングを採用し、立方体のようなブロック形状を利用して強い局所相関の恩恵を受ける。この方法はさらに、スイッチ可能なエンドポイントモードと適応的スケール補間を使用して圧縮を最適化し、異常値の有無に関わらずユニモーダルデータ分布を処理する。その結果、16ビットのデータは定数と可変ビットレートでそれぞれ4$\times$と7.69$\times$の圧縮レートとなる。ハードウェア設計は補間スケールを調整することで面積コストを最小化し,補間ポイント間のハードウェア共有を容易にする。さらに,簡単な補間のためのしきい値概念を導入し,複雑なハードウェアの必要性を回避した。 TSMC 28nmの実装では、8ビット版のゲート数は6135である。さらに、ハードウェアアーキテクチャは、面積コストのサブ線形増加のみで、効果的にスケールする。 32$\times$スループットの向上は、DDR5-6400の理論的帯域幅をわずか7.65$\times$ハードウェアコストで達成する。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Accelerating Distributed Deep Learning using Lossless Homomorphic Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文参考訳（メタデータ） (2024-02-12T09:57:47Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。 GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文参考訳（メタデータ） (2023-05-20T14:25:17Z)
DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-01-15T09:31:58Z)
Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文参考訳（メタデータ） (2023-01-11T18:59:46Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Memory-Efficient CNN Accelerator Based on Interlayer Feature Map Compression [9.466720378654248]
層間特徴マップをバッファリングするためには、大きなオンチップメモリが必要である。層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。 403GOPSピークスループットと1.4x3.3x層間特徴マップの削減を実現している。
論文参考訳（メタデータ） (2021-10-12T16:50:35Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)
ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65～400倍)と優れたスケーラビリティ(64名までの学習者,8～12倍のバッチサイズ)を提供する。
論文参考訳（メタデータ） (2021-04-21T02:22:10Z)
A fully pipelined FPGA accelerator for scale invariant feature transform keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文参考訳（メタデータ） (2020-12-17T15:29:41Z)
ALF: Autoencoder-based Low-rank Filter-sharing for Efficient Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。 ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文参考訳（メタデータ） (2020-07-27T09:01:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。