論文の概要: Deep learning model compression using network sensitivity and gradients
- arxiv url: http://arxiv.org/abs/2210.05111v1
- Date: Tue, 11 Oct 2022 03:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:46:47.556948
- Title: Deep learning model compression using network sensitivity and gradients
- Title(参考訳): ネットワーク感度と勾配を用いたディープラーニングモデル圧縮
- Authors: Madhumitha Sakthi, Niranjan Yadla, Raj Pawate
- Abstract要約: 非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
- 参考スコア(独自算出の注目度): 3.52359746858894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning model compression is an improving and important field for the
edge deployment of deep learning models. Given the increasing size of the
models and their corresponding power consumption, it is vital to decrease the
model size and compute requirement without a significant drop in the model's
performance. In this paper, we present model compression algorithms for both
non-retraining and retraining conditions. In the first case where retraining of
the model is not feasible due to lack of access to the original data or absence
of necessary compute resources while only having access to off-the-shelf
models, we propose the Bin & Quant algorithm for compression of the deep
learning models using the sensitivity of the network parameters. This results
in 13x compression of the speech command and control model and 7x compression
of the DeepSpeech2 models. In the second case when the models can be retrained
and utmost compression is required for the negligible loss in accuracy, we
propose our novel gradient-weighted k-means clustering algorithm (GWK). This
method uses the gradients in identifying the important weight values in a given
cluster and nudges the centroid towards those values, thereby giving importance
to sensitive weights. Our method effectively combines product quantization with
the EWGS[1] algorithm for sub-1-bit representation of the quantized models. We
test our GWK algorithm on the CIFAR10 dataset across a range of models such as
ResNet20, ResNet56, MobileNetv2 and show 35x compression on quantized models
for less than 2% absolute loss in accuracy compared to the floating-point
models.
- Abstract(参考訳): ディープラーニングモデルの圧縮は、ディープラーニングモデルのエッジデプロイメントの改善と重要な分野である。
モデルのサイズとそれに対応する電力消費量の増加を考えると、モデルの性能を著しく低下させることなく、モデルのサイズと計算要件を減少させることが不可欠である。
本稿では,非拘束条件と再訓練条件の両方に対するモデル圧縮アルゴリズムを提案する。
原データへのアクセスの欠如や必要な計算資源の欠如によりモデルの再学習が不可能な場合において,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
これにより、音声コマンドと制御モデルの13倍圧縮とDeepSpeech2モデルの7倍圧縮が得られる。
モデルの再トレーニングが可能であり,精度の低下に最大限の圧縮が必要となる場合,我々は新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
この方法は、与えられたクラスタにおける重要な重み値の同定に勾配を使い、その値に対してセントロイドを練り込み、感度の高い重みに重きを置く。
本手法は,製品量子化とEWGS[1]アルゴリズムを効果的に組み合わせて,量子化モデルのサブ-1ビット表現を行う。
resnet20、resnet56、mobilenetv2などのモデルでcifar10データセット上でgwkアルゴリズムをテストし、浮動小数点モデルに比べて絶対損失の2%未満で量子化されたモデル上で35倍の圧縮を示す。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Rotation Invariant Quantization for Model Compression [7.633595230914364]
トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られているデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
NNモデル全体の量子化に単一パラメータを用いる回転不変量子化(RIQ)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T10:53:30Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Investigating the Relationship Between Dropout Regularization and Model
Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。
2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。
各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文 参考訳(メタデータ) (2021-08-14T23:49:33Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。