論文の概要: DKM: Differentiable K-Means Clustering Layer for Neural Network
Compression
- arxiv url: http://arxiv.org/abs/2108.12659v1
- Date: Sat, 28 Aug 2021 14:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 15:04:40.019898
- Title: DKM: Differentiable K-Means Clustering Layer for Neural Network
Compression
- Title(参考訳): DKM:ニューラルネットワーク圧縮のための微分可能なK平均クラスタリング層
- Authors: Minsik Cho, Keivan A. Vahid, Saurabh Adya, Mohammad Rastegari
- Abstract要約: そこで我々は, 列車時重みクラスタリングに基づくモデル圧縮のための, 微分可能なk平均クラスタリング層(DKM)を提案する。
DKMは、k平均クラスタリングを注目問題とし、パラメータの合同最適化とセントロイドのクラスタリングを可能にする。
DKM は ImageNet1k と GLUE のベンチマークにおいて,優れた圧縮と精度のトレードオフをもたらすことを示す。
- 参考スコア(独自算出の注目度): 20.73169804006698
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural network (DNN) model compression for efficient on-device inference
is becoming increasingly important to reduce memory requirements and keep user
data on-device. To this end, we propose a novel differentiable k-means
clustering layer (DKM) and its application to train-time weight
clustering-based DNN model compression. DKM casts k-means clustering as an
attention problem and enables joint optimization of the parameters and
clustering centroids. Unlike prior works that rely on additional regularizers
and parameters, DKM-based compression keeps the original loss function and
model architecture fixed. We evaluated DKM-based compression on various DNN
models for computer vision and natural language processing (NLP) tasks. Our
results demonstrate that DMK delivers superior compression and accuracy
trade-off on ImageNet1k and GLUE benchmarks. For example, DKM-based compression
can offer 74.5% top-1 ImageNet1k accuracy on ResNet50 DNN model with 3.3MB
model size (29.4x model compression factor). For MobileNet-v1, which is a
challenging DNN to compress, DKM delivers 62.8% top-1 ImageNet1k accuracy with
0.74 MB model size (22.4x model compression factor). This result is 6.8% higher
top-1 accuracy and 33% relatively smaller model size than the current
state-of-the-art DNN compression algorithms. Additionally, DKM enables
compression of DistilBERT model by 11.8x with minimal (1.1%) accuracy loss on
GLUE NLP benchmarks.
- Abstract(参考訳): 効率的なオンデバイス推論のためのディープニューラルネットワーク(dnn)モデル圧縮は、メモリ要件を削減し、ユーザデータをデバイス上に保持するためにますます重要になっている。
そこで本研究では,新しい微分可能なk-meansクラスタリング層(dkm)の提案と,それを用いたdnnモデル圧縮への応用について述べる。
DKMは、k平均クラスタリングを注目問題とし、パラメータの合同最適化とセントロイドのクラスタリングを可能にする。
追加の正規化器やパラメータに依存する以前の作業とは異なり、DKMベースの圧縮は元の損失関数とモデルアーキテクチャを固定し続ける。
コンピュータビジョンと自然言語処理(NLP)タスクのための様々なDNNモデルのDKMに基づく圧縮を評価した。
その結果, DMK は ImageNet1k および GLUE ベンチマークにおいて, 優れた圧縮と精度のトレードオフをもたらすことが示された。
例えば、DKMベースの圧縮は、3.3MBモデルサイズ(29.4倍)のResNet50 DNNモデル上で74.5%のトップ-1 ImageNet1kの精度を提供する。
圧縮が難しいMobileNet-v1では、DKMは62.8%のトップ-1 ImageNet1kの精度を0.74MBのモデルサイズ(22.4倍)で提供する。
この結果は6.8%の精度で、現在のDNN圧縮アルゴリズムよりもモデルサイズが33%小さい。
さらに、DKM は GLUE NLP ベンチマークで最小 (1.1%) の精度で DistilBERT モデルを 11.8x 圧縮できる。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - Rotation Invariant Quantization for Model Compression [7.269081881533542]
トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られているデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
NNモデル全体の量子化に単一パラメータを用いる回転不変量子化(RIQ)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T10:53:30Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Toward Compact Parameter Representations for Architecture-Agnostic
Neural Network Compression [26.501979992447605]
本稿では,訓練されたパラメータをコンパクトに表現・保存する観点から,圧縮について検討する。
我々は、画像記述子のために発明された極端損失圧縮法である加法量子化を利用して、パラメータをコンパクトに表現する。
我々は,MobileNet-v2,VGG-11,ResNet-50,Feature Pyramid Networks,および分類,検出,セグメンテーションタスクを訓練したPruned DNNの実験を行った。
論文 参考訳(メタデータ) (2021-11-19T17:03:11Z) - Towards Efficient Tensor Decomposition-Based DNN Model Compression with
Optimization Framework [14.27609385208807]
乗算器の交互方向法(ADMM)を用いたテンソル分解に基づくモデル圧縮のための体系的フレームワークを提案する。
私たちのフレームワークは非常に一般的で、CNNとRNNの両方で機能します。
実験の結果,ADMMに基づくTTフォーマットモデルは非常に高い圧縮性能を示し,精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-07-26T18:31:33Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。