論文の概要: SWIS -- Shared Weight bIt Sparsity for Efficient Neural Network
Acceleration
- arxiv url: http://arxiv.org/abs/2103.01308v2
- Date: Wed, 3 Mar 2021 03:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 12:26:00.929180
- Title: SWIS -- Shared Weight bIt Sparsity for Efficient Neural Network
Acceleration
- Title(参考訳): SWIS -- 効率的なニューラルネットワーク高速化のための共有重みbItスポーサリティ
- Authors: Shurui Li, Wojciech Romaszkan, Alexander Graening, Puneet Gupta
- Abstract要約: 量子化は、ニューラルネットワークコンピューティングシステムの性能と効率の向上を先導している。
本稿では,効率的なニューラルネットワーク推論高速化のための量子化フレームワークSWIS-Shared Weight bIt Sparsityを提案する。
- 参考スコア(独自算出の注目度): 68.36996813591423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is spearheading the increase in performance and efficiency of
neural network computing systems making headway into commodity hardware. We
present SWIS - Shared Weight bIt Sparsity, a quantization framework for
efficient neural network inference acceleration delivering improved performance
and storage compression through an offline weight decomposition and scheduling
algorithm. SWIS can achieve up to 54.3% (19.8%) point accuracy improvement
compared to weight truncation when quantizing MobileNet-v2 to 4 (2) bits
post-training (with retraining) showing the strength of leveraging shared
bit-sparsity in weights. SWIS accelerator gives up to 6x speedup and 1.9x
energy improvement overstate of the art bit-serial architectures.
- Abstract(参考訳): 量子化は、コモディティハードウェアへの道を開くニューラルネットワークコンピューティングシステムの性能と効率の向上を先導している。
本論文では,オフラインの重み分解およびスケジューリングアルゴリズムを用いて,性能とストレージ圧縮の改善を実現する,効率的なニューラルネットワーク推論アクセラレーションのための量子化フレームワークであるSWIS - Shared Weight bIt Sparsityを提案する。
swisは、mobilenet-v2から4ビットのトレーニング後の(再トレーニングによる)ビットを定量化する場合の重量減少と比較して、最大54.3% (19.8%) の点精度向上を達成できる。
SWISアクセラレータは6倍のスピードアップと1.9倍のエネルギー向上を実現している。
関連論文リスト
- Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Overcoming Oscillations in Quantization-Aware Training [18.28657022169428]
量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。
その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。
トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:07:42Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Weight Equalizing Shift Scaler-Coupled Post-training Quantization [0.5936318628878774]
トレーニング後、レイヤワイドの量子化が望ましいのは、再トレーニングが不要で、ハードウェアフレンドリーであるからである。
ニューラルネットワークモデルがチャネルあたりのウェイト範囲に大きな違いがある場合、精度の低下が発生します。
本研究では,4ビットのバイナリシフトでチャネルごとの重み範囲を再スケーリングする,新しい重み等化シフトスケーラを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。