論文の概要: Compressing Language Models using Doped Kronecker Products
- arxiv url: http://arxiv.org/abs/2001.08896v5
- Date: Tue, 17 Nov 2020 05:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 04:40:23.917644
- Title: Compressing Language Models using Doped Kronecker Products
- Title(参考訳): ドープクロネッカー製品を用いた圧縮言語モデル
- Authors: Urmish Thakker, Paul N. Whatmough, Zhi-Gang Liu, Matthew Mattina,
Jesse Beu
- Abstract要約: 本稿では,大規模なNLPタスクにKPを適用した場合の精度を回復する手法を提案する。
我々は、この圧縮手法をドープクローネッカー製品圧縮と呼ぶ。
LSTM層のサイズ25 MB×25 MBの大規模言語モデルの圧縮を1.4%のパープレキシティスコアで実証する実験結果を示す。
- 参考スコア(独自算出の注目度): 16.64452087806598
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Kronecker Products (KP) have been used to compress IoT RNN Applications by
15-38x compression factors, achieving better results than traditional
compression methods. However when KP is applied to large Natural Language
Processing tasks, it leads to significant accuracy loss (approx 26%). This
paper proposes a way to recover accuracy otherwise lost when applying KP to
large NLP tasks, by allowing additional degrees of freedom in the KP matrix.
More formally, we propose doping, a process of adding an extremely sparse
overlay matrix on top of the pre-defined KP structure. We call this compression
method doped kronecker product compression. To train these models, we present a
new solution to the phenomenon of co-matrix adaption (CMA), which uses a new
regularization scheme called co matrix dropout regularization (CMR). We present
experimental results that demonstrate compression of a large language model
with LSTM layers of size 25 MB by 25x with 1.4% loss in perplexity score. At
25x compression, an equivalent pruned network leads to 7.9% loss in perplexity
score, while HMD and LMF lead to 15% and 27% loss in perplexity score
respectively.
- Abstract(参考訳): Kronecker Products (KP)は、IoT RNNアプリケーションを15~38倍圧縮係数で圧縮するために使われ、従来の圧縮方法よりも優れた結果が得られる。
しかし、大規模な自然言語処理タスクにKPを適用すると、かなりの精度の損失(約26%)が発生する。
本稿では,KP行列に新たな自由度を持たせることで,大規模なNLPタスクにKPを適用した場合に失われる精度を回復する方法を提案する。
より正式には、事前に定義されたKP構造の上に非常にスパースなオーバーレイ行列を追加するプロセスであるドーピングを提案する。
我々はこの圧縮手法をドップドクロネッカー製品圧縮と呼ぶ。
これらのモデルをトレーニングするために、コマトリックスドロップアウト正規化(CMR)と呼ばれる新しい正規化スキームを用いて、コマトリックス適応(CMA)現象に対する新しい解を提案する。
本研究では,25mb×25倍のlstm層を有する大規模言語モデルの圧縮とパープレキシティスコアの1.4%の損失を示す実験結果を示す。
25倍の圧縮では、等価なprunedネットワークは7.9%のパープレキシティスコアを失うが、hmdとlmfはそれぞれ15%と27%のパープレキシティスコアを失う。
関連論文リスト
- MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - R2 Loss: Range Restriction Loss for Model Compression and Quantization [6.218599842159466]
本稿では,事前学習中に重みから外れ値を取り除き,低ビット量子化と圧縮親和性モデルを構築するための範囲制限損失(R2-Loss)を提案する。
R2-Lossは、最先端のポストトレーニング量子化(PTQ)、量子化対応トレーニング(QAT)、モデル圧縮技術により、低ビット量子化精度を向上させる。
論文 参考訳(メタデータ) (2023-03-14T21:59:21Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Vision Transformer Compression with Structured Pruning and Low Rank
Approximation [1.9685957565449135]
トランスフォーマーアーキテクチャは、大規模なデータセットでスケールできることから人気を集めている。
画像認識タスクのための視覚変換器を提案する。
この目的のために、低階近似やプルーニングなどの異なる圧縮手法の適用について検討する。
論文 参考訳(メタデータ) (2022-03-25T04:18:07Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Doping: A technique for efficient compression of LSTM models using
sparse structured additive matrices [14.321761305835972]
私たちはドーピングの概念を提案します -- 構造化マトリックスに非常にスパースなマトリックスを追加します。
ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。
同一精度で1.3倍から2.4倍の圧縮係数を達成することにより,dip kp圧縮技術は従来の技術圧縮結果を上回ることを示した。
論文 参考訳(メタデータ) (2021-02-14T05:14:09Z) - Rank and run-time aware compression of NLP Applications [12.965657113072325]
本稿では,ハイブリッド行列係数化と呼ばれる新しい圧縮手法を提案する。
行列のランクを2倍にすることで、低ランク行列分解法を改善する。
プルーニングよりも2.32倍高速で、LMFより16.77%精度が高い。
論文 参考訳(メタデータ) (2020-10-06T16:03:15Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。