Fugu-MT 論文翻訳(概要): Quantized Sparse Weight Decomposition for Neural Network Compression

論文の概要: Quantized Sparse Weight Decomposition for Neural Network Compression

arxiv url: http://arxiv.org/abs/2207.11048v1
Date: Fri, 22 Jul 2022 12:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-25 13:24:51.837312
Title: Quantized Sparse Weight Decomposition for Neural Network Compression
Title（参考訳）: ニューラルネットワーク圧縮のための量子スパースウェイト分解
Authors: Andrey Kuzmin, Mart van Baalen, Markus Nagel, Arash Behboodi
Abstract要約: このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。本手法は,ベクトル量子化法や極端圧縮法とは異なり,中等度圧縮法にも適用可能である。
参考スコア（独自算出の注目度）: 12.24566619983231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a novel method of neural network weight compression. In our method, we store weight tensors as sparse, quantized matrix factors, whose product is computed on the fly during inference to generate the target model's weights. We use projected gradient descent methods to find quantized and sparse factorization of the weight tensors. We show that this approach can be seen as a unification of weight SVD, vector quantization, and sparse PCA. Combined with end-to-end fine-tuning our method exceeds or is on par with previous state-of-the-art methods in terms of the trade-off between accuracy and model size. Our method is applicable to both moderate compression regimes, unlike vector quantization, and extreme compression regimes.
Abstract（参考訳）: 本稿では,ニューラルネットワークの重み圧縮の新しい手法を提案する。提案手法では, 重みテンソルを分散量子化行列因子として保存し, 対象モデルの重みを生成する推論中にその積をフライ上で計算する。推定勾配降下法を用いて、重みテンソルの量子化およびスパース因子化を求める。このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。エンドツーエンドの微調整と組み合わせることで、精度とモデルサイズの間のトレードオフの観点から、従来の最先端の手法に匹敵する、あるいは同等である。本手法は,ベクトル量子化や極端圧縮レジームとは異なり,適度な圧縮レジームに適用できる。

関連論文リスト

Compression Scaling Laws:Unifying Sparsity and Quantization [65.05818215339498]
プレトレーニング中の大規模言語モデル(LLM)のスケーリング挙動に異なる圧縮手法がどう影響するかを検討する。重みのみの量子化は強力なパラメータ効率乗算器を実現する一方で、重みとアクティベーションの完全な量子化は低ビット幅でのリターンの低下を示す。以上の結果から,異なる圧縮手法を共通のスケーリング法枠組みの下で統一できることが示唆された。
論文参考訳（メタデータ） (2025-02-23T04:47:36Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Diffusion Product Quantization [18.32568431229839]
極端圧縮条件下での拡散モデルの量子化について検討し、性能を維持しながらモデルサイズを小さくする。我々は、ImageNet上のDiTモデルに圧縮法を適用し、他の量子化手法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-11-19T07:47:37Z)
Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。 VBMFは各層における重みテンソルのランクを推定するために用いられる。その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T06:40:34Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-04-15T12:38:46Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文参考訳（メタデータ） (2023-08-08T21:38:02Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文参考訳（メタデータ） (2022-03-21T02:11:35Z)
Robust Tensor Principal Component Analysis: Exact Recovery via Deterministic Model [5.414544833902815]
本稿では,ロバストテンソル主成分分析法(RTPCA)を提案する。これは最近開発されたテンソルテンソル積とテンソル特異値分解(t-SVD)に基づいている。
論文参考訳（メタデータ） (2020-08-05T16:26:10Z)
Exploiting Weight Redundancy in CNNs: Beyond Pruning and Quantization [0.2538209532048866]
畳み込みニューラルネットワーク(CNN)の性能と記憶効率を向上させる方法として、プルーニングと量子化が証明されている。 CNN重みテンソルにおける別の冗長性は、類似した値の繰り返しパターンの形で識別する。
論文参考訳（メタデータ） (2020-06-22T01:54:04Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。