論文の概要: Doping: A technique for efficient compression of LSTM models using
sparse structured additive matrices
- arxiv url: http://arxiv.org/abs/2102.07071v1
- Date: Sun, 14 Feb 2021 05:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:39:26.569021
- Title: Doping: A technique for efficient compression of LSTM models using
sparse structured additive matrices
- Title(参考訳): ドーピング:スパース構造付加行列を用いたLSTMモデルの効率的な圧縮手法
- Authors: Urmish Thakker, Paul N. Whatmough, Zhigang Liu, Matthew Mattina, Jesse
Beu
- Abstract要約: 私たちはドーピングの概念を提案します -- 構造化マトリックスに非常にスパースなマトリックスを追加します。
ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。
同一精度で1.3倍から2.4倍の圧縮係数を達成することにより,dip kp圧縮技術は従来の技術圧縮結果を上回ることを示した。
- 参考スコア(独自算出の注目度): 14.321761305835972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured matrices, such as those derived from Kronecker products (KP), are
effective at compressing neural networks, but can lead to unacceptable accuracy
loss when applied to large models. In this paper, we propose the notion of
doping -- addition of an extremely sparse matrix to a structured matrix. Doping
facilitates additional degrees of freedom for a small number of parameters,
allowing them to independently diverge from the fixed structure. To train LSTMs
with doped structured matrices, we introduce the additional parameter matrix
while slowly annealing its sparsity level. However, we find that performance
degrades as we slowly sparsify the doping matrix, due to co-matrix adaptation
(CMA) between the structured and the sparse matrices. We address this over
dependence on the sparse matrix using a co-matrix dropout regularization (CMR)
scheme. We provide empirical evidence to show that doping, CMA and CMR are
concepts generally applicable to multiple structured matrices (Kronecker
Product, LMF, Hybrid Matrix Decomposition). Additionally, results with doped
kronecker product matrices demonstrate state-of-the-art accuracy at large
compression factors (10 - 25x) across 4 natural language processing
applications with minor loss in accuracy. Doped KP compression technique
outperforms previous state-of-the art compression results by achieving 1.3 -
2.4x higher compression factor at a similar accuracy, while also beating strong
alternatives like pruning and low-rank methods by a large margin (8% or more).
Additionally, we show that doped KP can be deployed on commodity hardware using
the current software stack and achieve 2.5 - 5.5x inference run-time speed-up
over baseline.
- Abstract(参考訳): Kronecker製品(KP)から派生した構造行列はニューラルネットワークの圧縮に有効であるが、大型モデルに適用すると許容できない精度の損失につながる。
本稿では,構造化行列に非常にスパースな行列を付加するドーピングの概念を提案する。
ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。
LSTMをドープした構造行列で訓練するために、そのスパースレベルをゆっくりとアニールしながら追加のパラメータ行列を導入します。
しかし, 構造行列とスパース行列間の共行列適応(CMA)により, ドッピング行列が緩やかに分散するにつれて, 性能が低下することがわかった。
我々はコマトリクスドロップアウト正規化(CMR)スキームを用いて、スパース行列に対する過度の依存に対処する。
ドッピング, CMA, CMRが一般に複数の構造化行列(Kronecker Product, LMF, Hybrid Matrix Decomposition)に適用可能であることを示す実証的証拠を提供する。
さらに、doped kronecker製品行列による結果は、4つの自然言語処理アプリケーションの大きな圧縮係数(10倍から25倍)における最先端の精度を示す。
ドープされたKP圧縮技術は、1.32.4倍高い圧縮係数を同じ精度で達成し、またプルーニングやローランクメソッドのような強力な代替手段を大きなマージン(8%以上)で打ち負かした。
さらに、ドープされたKPが現在のソフトウェアスタックを使用してコモディティハードウェアにデプロイされ、ベースライン上で2.5~5.5倍の推論実行速度を達成できることを示した。
関連論文リスト
- From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Common Subexpression-based Compression and Multiplication of Sparse
Constant Matrices [0.0]
本稿では,圧縮スパースロウ(CSR)をCSEに拡張した圧縮形式を提案する。
加算木を1分で1千倍の1000ドルのマトリックスで作る。
シングルコア組込みシステムのシミュレーションでは、行列乗算の実行時間を20%削減できることが示されている。
論文 参考訳(メタデータ) (2023-03-26T22:14:15Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Exact Decomposition of Joint Low Rankness and Local Smoothness Plus
Sparse Matrices [39.47324019377441]
3次元相関総変分正規化(略して3DCTV-RPCA)に基づく新しいRPCAモデルを提案する。
いくつかの軽微な仮定の下で、提案した3DCTV-RPCAモデルが両方のコンポーネントを正確に分解できることを示す。
論文 参考訳(メタデータ) (2022-01-29T13:58:03Z) - Robust 1-bit Compressive Sensing with Partial Gaussian Circulant
Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。
我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文 参考訳(メタデータ) (2021-08-08T05:28:06Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Rank and run-time aware compression of NLP Applications [12.965657113072325]
本稿では,ハイブリッド行列係数化と呼ばれる新しい圧縮手法を提案する。
行列のランクを2倍にすることで、低ランク行列分解法を改善する。
プルーニングよりも2.32倍高速で、LMFより16.77%精度が高い。
論文 参考訳(メタデータ) (2020-10-06T16:03:15Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - Compressing Language Models using Doped Kronecker Products [16.64452087806598]
本稿では,大規模なNLPタスクにKPを適用した場合の精度を回復する手法を提案する。
我々は、この圧縮手法をドープクローネッカー製品圧縮と呼ぶ。
LSTM層のサイズ25 MB×25 MBの大規模言語モデルの圧縮を1.4%のパープレキシティスコアで実証する実験結果を示す。
論文 参考訳(メタデータ) (2020-01-24T06:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。