論文の概要: Quantized Sparse Weight Decomposition for Neural Network Compression
- arxiv url: http://arxiv.org/abs/2207.11048v1
- Date: Fri, 22 Jul 2022 12:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:24:51.837312
- Title: Quantized Sparse Weight Decomposition for Neural Network Compression
- Title(参考訳): ニューラルネットワーク圧縮のための量子スパースウェイト分解
- Authors: Andrey Kuzmin, Mart van Baalen, Markus Nagel, Arash Behboodi
- Abstract要約: このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
本手法は,ベクトル量子化法や極端圧縮法とは異なり,中等度圧縮法にも適用可能である。
- 参考スコア(独自算出の注目度): 12.24566619983231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel method of neural network weight
compression. In our method, we store weight tensors as sparse, quantized matrix
factors, whose product is computed on the fly during inference to generate the
target model's weights. We use projected gradient descent methods to find
quantized and sparse factorization of the weight tensors. We show that this
approach can be seen as a unification of weight SVD, vector quantization, and
sparse PCA. Combined with end-to-end fine-tuning our method exceeds or is on
par with previous state-of-the-art methods in terms of the trade-off between
accuracy and model size. Our method is applicable to both moderate compression
regimes, unlike vector quantization, and extreme compression regimes.
- Abstract(参考訳): 本稿では,ニューラルネットワークの重み圧縮の新しい手法を提案する。
提案手法では, 重みテンソルを分散量子化行列因子として保存し, 対象モデルの重みを生成する推論中にその積をフライ上で計算する。
推定勾配降下法を用いて、重みテンソルの量子化およびスパース因子化を求める。
このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
エンドツーエンドの微調整と組み合わせることで、精度とモデルサイズの間のトレードオフの観点から、従来の最先端の手法に匹敵する、あるいは同等である。
本手法は,ベクトル量子化や極端圧縮レジームとは異なり,適度な圧縮レジームに適用できる。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Preprint: Norm Loss: An efficient yet effective regularization method
for deep neural networks [7.214681039134488]
斜め多様体に基づく重み付き軟規則化法を提案する。
本手法は, CIFAR-10, CIFAR-100, ImageNet 2012データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-03-11T10:24:49Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Robust Tensor Principal Component Analysis: Exact Recovery via
Deterministic Model [5.414544833902815]
本稿では,ロバストテンソル主成分分析法(RTPCA)を提案する。
これは最近開発されたテンソルテンソル積とテンソル特異値分解(t-SVD)に基づいている。
論文 参考訳(メタデータ) (2020-08-05T16:26:10Z) - Exploiting Weight Redundancy in CNNs: Beyond Pruning and Quantization [0.2538209532048866]
畳み込みニューラルネットワーク(CNN)の性能と記憶効率を向上させる方法として、プルーニングと量子化が証明されている。
CNN重みテンソルにおける別の冗長性は、類似した値の繰り返しパターンの形で識別する。
論文 参考訳(メタデータ) (2020-06-22T01:54:04Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。