論文の概要: Resource Efficient Neural Networks Using Hessian Based Pruning
- arxiv url: http://arxiv.org/abs/2306.07030v1
- Date: Mon, 12 Jun 2023 11:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:59:59.795063
- Title: Resource Efficient Neural Networks Using Hessian Based Pruning
- Title(参考訳): hessian based pruningを用いた資源効率のよいニューラルネットワーク
- Authors: Jack Chong, Manas Gupta, Lihui Chen
- Abstract要約: 我々はFP32の代わりにFP16精度を用いてヘッセントレースを推定することで既存のアプローチを修正した。
我々の修正されたアプローチは、モデルアーキテクチャとGPUデバイスの異なる組み合わせの実験において、17%から最大44%のスピードアップを達成することができる。
また, FP16 と FP32 Hessian のトレース計算によるプルーニングの結果について述べる。
- 参考スコア(独自算出の注目度): 7.042897867094235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural network pruning is a practical way for reducing the size of trained
models and the number of floating-point operations. One way of pruning is to
use the relative Hessian trace to calculate sensitivity of each channel, as
compared to the more common magnitude pruning approach. However, the stochastic
approach used to estimate the Hessian trace needs to iterate over many times
before it can converge. This can be time-consuming when used for larger models
with many millions of parameters. To address this problem, we modify the
existing approach by estimating the Hessian trace using FP16 precision instead
of FP32. We test the modified approach (EHAP) on
ResNet-32/ResNet-56/WideResNet-28-8 trained on CIFAR10/CIFAR100 image
classification tasks and achieve faster computation of the Hessian trace.
Specifically, our modified approach can achieve speed ups ranging from 17% to
as much as 44% during our experiments on different combinations of model
architectures and GPU devices. Our modified approach also takes up around 40%
less GPU memory when pruning ResNet-32 and ResNet-56 models, which allows for a
larger Hessian batch size to be used for estimating the Hessian trace.
Meanwhile, we also present the results of pruning using both FP16 and FP32
Hessian trace calculation and show that there are no noticeable accuracy
differences between the two. Overall, it is a simple and effective way to
compute the relative Hessian trace faster without sacrificing on pruned model
performance. We also present a full pipeline using EHAP and quantization aware
training (QAT), using INT8 QAT to compress the network further after pruning.
In particular, we use symmetric quantization for the weights and asymmetric
quantization for the activations.
- Abstract(参考訳): ニューラルネットワークプルーニングは、訓練されたモデルのサイズと浮動小数点演算数を減らすための実用的な方法である。
プルーニングの1つの方法は、より一般的なマグニチュードプルーニングアプローチと比較して、相対ヘッセントレースを用いて各チャネルの感度を計算することである。
しかし、ヘッセントレースを推定するために使われる確率的アプローチは、収束する前に何度も反復する必要がある。
これは、数百万のパラメータを持つ大きなモデルで使用する場合、時間がかかる可能性がある。
この問題に対処するために、FP32の代わりにFP16精度を用いてHessianトレースを推定することで既存のアプローチを変更する。
我々は、CIFAR10/CIFAR100画像分類タスクで訓練されたResNet-32/ResNet-56/WideResNet-28-8上の修正手法(EHAP)を試験し、Hessianトレースの高速な計算を実現する。
具体的には、モデルアーキテクチャとGPUデバイスの異なる組み合わせの実験において、17%から最大44%のスピードアップを実現しました。
修正されたアプローチでは、ResNet-32とResNet-56モデルをプルーニングする際のGPUメモリも40%削減されています。
また, FP16 と FP32 のヘシアントレース計算を用いてプルーニングを行った結果, 両者に顕著な精度差は認められなかった。
全体としては、プルーニングモデルの性能を犠牲にすることなく、相対ヘッセントレースを高速に計算するシンプルで効果的な方法である。
また、EHAPと量子化対応トレーニング(QAT)を用いて、INT8 QATを用いてネットワークをさらに圧縮する完全なパイプラインを提案する。
特に、重み付けには対称量子化、活性化には非対称量子化を用いる。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Holistic Filter Pruning for Efficient Deep Neural Networks [25.328005340524825]
HFP(Holistic Filter Pruning)は、実装が容易で正確なプルーニング率の特定が可能な、一般的なDNNトレーニングのための新しいアプローチである。
各種実験において,CIFAR-10 と ImageNet のトレーニングと最先端性能について考察した。
論文 参考訳(メタデータ) (2020-09-17T09:23:36Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Automatic Pruning for Quantized Neural Networks [35.2752928147013]
冗長な低精度フィルタを選択するための効率的なプルーニング手法を提案する。
我々は CIFAR-10 と ImageNet について,様々なアーキテクチャと精度で広範な実験を行った。
ImageNet上のResNet-18では、二元化ニューラルネットワーク量子化によるモデルサイズの26.12%を経験する。
論文 参考訳(メタデータ) (2020-02-03T01:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。