論文の概要: APack: Off-Chip, Lossless Data Compression for Efficient Deep Learning
Inference
- arxiv url: http://arxiv.org/abs/2201.08830v1
- Date: Fri, 21 Jan 2022 18:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 15:03:55.025270
- Title: APack: Off-Chip, Lossless Data Compression for Efficient Deep Learning
Inference
- Title(参考訳): APack: 効率的なディープラーニング推論のためのオフチップ、ロスレスデータ圧縮
- Authors: Alberto Delmas Lascorz (1), Mostafa Mahmoud (1), Andreas Moshovos (1
and 2) ((1) University of Toronto (2) Vector Institute)
- Abstract要約: APackは、固定点量子化モデルのためのシンプルで効果的なオフチップメモリ圧縮技術である。
APackは、ディープラーニングアプリケーションにおいて、一様でない値分布を利用することで、データ幅を削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data accesses between on- and off-chip memories account for a large fraction
of overall energy consumption during inference with deep learning networks. We
present APack, a simple and effective, lossless, off-chip memory compression
technique for fixed-point quantized models. APack reduces data widths by
exploiting the non-uniform value distribution in deep learning applications.
APack can be used to increase the effective memory capacity, to reduce off-chip
traffic, and/or to achieve the desired performance/energy targets while using
smaller off-chip memories. APack builds upon arithmetic coding, encoding each
value as an arithmetically coded variable length prefix, plus an offset. To
maximize compression ratio a heuristic software algorithm partitions the value
space into groups each sharing a common prefix. APack exploits memory access
parallelism by using several, pipelined encoder/decoder units in parallel and
keeps up with the high data bandwidth demands of deep learning. APack can be
used with any machine learning accelerator. In the demonstrated configuration,
APack is placed just before the off-chip memory controller so that he rest of
the on-chip memory and compute units thus see the original data stream. We
implemented the APack compressor and decompressor in Verilog and in a 65nm tech
node demonstrating its performance and energy efficiency. Indicatively, APack
reduces data footprint of weights and activations to 60% and 48% respectively
on average over a wide set of 8-bit quantized models. It naturally adapts and
compresses models that use even more aggressive quantization methods. When
integrated with a Tensorcore-based accelerator, APack boosts the speedup and
energy efficiency to 1.44X and 1.37X respectively.
- Abstract(参考訳): オンチップメモリとオフチップメモリ間のデータアクセスは、ディープラーニングネットワークによる推論において、全体のエネルギー消費量の大部分を占める。
固定点量子化モデルのためのシンプルで効果的でロスレスなオフチップメモリ圧縮技術であるAPackを提案する。
apackは、ディープラーニングアプリケーションにおける一様でない値分布を利用して、データ幅を減らす。
apackは、効果的なメモリ容量を増やしたり、オフチップのトラフィックを減らしたり、より小さなオフチップメモリを使いながら、望ましいパフォーマンス/エネルギ目標を達成するために使うことができる。
APackは算術符号に基づいて構築され、各値を算術的にコード化された可変長プレフィックスとオフセットとして符号化する。
ヒューリスティックソフトウェアアルゴリズムは、圧縮比を最大化するために、値空間を共通のプレフィックスを共有するグループに分割する。
apackは、複数のパイプライン化されたエンコーダ/デコーダユニットを並列に使用することで、メモリアクセス並列性を活用し、ディープラーニングの高データ帯域幅要求に対応する。
APackは任意の機械学習アクセラレータで使用することができる。
デモされた構成では、apackはオフチップメモリコントローラのすぐ前に置かれ、オンチップメモリと計算ユニットの残りが元のデータストリームに表示される。
我々はverilogと65nm技術ノードでapack圧縮機と除圧縮機を実装し,その性能とエネルギー効率を実証した。
例えば、apackは8ビットの量子化モデルで平均して、重量とアクティベーションのデータフットプリントを60%と48%に削減している。
より積極的な量子化法を使用するモデルに自然に適応し、圧縮する。
テンソルコアベースの加速器と統合すると、apackはスピードアップとエネルギー効率をそれぞれ 1.44x と 1.37x に向上させる。
関連論文リスト
- BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on
General Purpose CPUs [0.0]
記憶のためのメモリレイアウトと,サブバイト (4ビット, 2ビット, 1ビット) モデルを処理するための機構について述べる。
音声認識モデルであるMozilla DeepSpeechを適用することで、採用したビット幅に応じて、最先端の処理に比べてエンドツーエンドのスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-11-13T18:13:31Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Memory-Efficient CNN Accelerator Based on Interlayer Feature Map
Compression [9.466720378654248]
層間特徴マップをバッファリングするためには、大きなオンチップメモリが必要である。
層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。
403GOPSピークスループットと1.4x3.3x層間特徴マップの削減を実現している。
論文 参考訳(メタデータ) (2021-10-12T16:50:35Z) - Supervised Compression for Resource-constrained Edge Computing Systems [26.676557573171618]
フルスケールのディープニューラルネットワークは、エネルギーとストレージの面でリソース集約的すぎることが多い。
本稿では、知識蒸留とニューラルイメージ圧縮のアイデアを採用し、中間特徴表現をより効率的に圧縮する。
教師付きレート歪み性能を向上するとともに、エンドツーエンドのレイテンシも小さくする。
論文 参考訳(メタデータ) (2021-08-21T11:10:29Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Deep Compression for PyTorch Model Deployment on Microcontrollers [0.2578242050187029]
本稿では、モデル圧縮、特にDeep CompressionをUnluのarXivに関する初期の研究に追加する。
LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。
論文 参考訳(メタデータ) (2021-03-29T22:08:44Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。