論文の概要: Quantized Sparse Weight Decomposition for Neural Network Compression
- arxiv url: http://arxiv.org/abs/2207.11048v1
- Date: Fri, 22 Jul 2022 12:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:24:51.837312
- Title: Quantized Sparse Weight Decomposition for Neural Network Compression
- Title(参考訳): ニューラルネットワーク圧縮のための量子スパースウェイト分解
- Authors: Andrey Kuzmin, Mart van Baalen, Markus Nagel, Arash Behboodi
- Abstract要約: このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
本手法は,ベクトル量子化法や極端圧縮法とは異なり,中等度圧縮法にも適用可能である。
- 参考スコア(独自算出の注目度): 12.24566619983231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel method of neural network weight
compression. In our method, we store weight tensors as sparse, quantized matrix
factors, whose product is computed on the fly during inference to generate the
target model's weights. We use projected gradient descent methods to find
quantized and sparse factorization of the weight tensors. We show that this
approach can be seen as a unification of weight SVD, vector quantization, and
sparse PCA. Combined with end-to-end fine-tuning our method exceeds or is on
par with previous state-of-the-art methods in terms of the trade-off between
accuracy and model size. Our method is applicable to both moderate compression
regimes, unlike vector quantization, and extreme compression regimes.
- Abstract(参考訳): 本稿では,ニューラルネットワークの重み圧縮の新しい手法を提案する。
提案手法では, 重みテンソルを分散量子化行列因子として保存し, 対象モデルの重みを生成する推論中にその積をフライ上で計算する。
推定勾配降下法を用いて、重みテンソルの量子化およびスパース因子化を求める。
このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
エンドツーエンドの微調整と組み合わせることで、精度とモデルサイズの間のトレードオフの観点から、従来の最先端の手法に匹敵する、あるいは同等である。
本手法は,ベクトル量子化や極端圧縮レジームとは異なり,適度な圧縮レジームに適用できる。
関連論文リスト
- Diffusion Product Quantization [18.32568431229839]
極端圧縮条件下での拡散モデルの量子化について検討し、性能を維持しながらモデルサイズを小さくする。
我々は、ImageNet上のDiTモデルに圧縮法を適用し、他の量子化手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-19T07:47:37Z) - Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。
VBMFは各層における重みテンソルのランクを推定するために用いられる。
その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T06:40:34Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Robust Tensor Principal Component Analysis: Exact Recovery via
Deterministic Model [5.414544833902815]
本稿では,ロバストテンソル主成分分析法(RTPCA)を提案する。
これは最近開発されたテンソルテンソル積とテンソル特異値分解(t-SVD)に基づいている。
論文 参考訳(メタデータ) (2020-08-05T16:26:10Z) - Exploiting Weight Redundancy in CNNs: Beyond Pruning and Quantization [0.2538209532048866]
畳み込みニューラルネットワーク(CNN)の性能と記憶効率を向上させる方法として、プルーニングと量子化が証明されている。
CNN重みテンソルにおける別の冗長性は、類似した値の繰り返しパターンの形で識別する。
論文 参考訳(メタデータ) (2020-06-22T01:54:04Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。