論文の概要: Rank and run-time aware compression of NLP Applications
- arxiv url: http://arxiv.org/abs/2010.03193v1
- Date: Tue, 6 Oct 2020 16:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:01:58.318814
- Title: Rank and run-time aware compression of NLP Applications
- Title(参考訳): NLPアプリケーションのランクと実行時認識圧縮
- Authors: Urmish Thakker, Jesse Beu, Dibakar Gope, Ganesh Dasika, Matthew
Mattina
- Abstract要約: 本稿では,ハイブリッド行列係数化と呼ばれる新しい圧縮手法を提案する。
行列のランクを2倍にすることで、低ランク行列分解法を改善する。
プルーニングよりも2.32倍高速で、LMFより16.77%精度が高い。
- 参考スコア(独自算出の注目度): 12.965657113072325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence model based NLP applications can be large. Yet, many applications
that benefit from them run on small devices with very limited compute and
storage capabilities, while still having run-time constraints. As a result,
there is a need for a compression technique that can achieve significant
compression without negatively impacting inference run-time and task accuracy.
This paper proposes a new compression technique called Hybrid Matrix
Factorization that achieves this dual objective. HMF improves low-rank matrix
factorization (LMF) techniques by doubling the rank of the matrix using an
intelligent hybrid-structure leading to better accuracy than LMF. Further, by
preserving dense matrices, it leads to faster inference run-time than pruning
or structure matrix based compression technique. We evaluate the impact of this
technique on 5 NLP benchmarks across multiple tasks (Translation, Intent
Detection, Language Modeling) and show that for similar accuracy values and
compression factors, HMF can achieve more than 2.32x faster inference run-time
than pruning and 16.77% better accuracy than LMF.
- Abstract(参考訳): シーケンスモデルに基づくNLPアプリケーションは大きい。
しかし、そのメリットを享受する多くのアプリケーションは、非常に限られた計算能力とストレージ能力を持つ小さなデバイス上で動作します。
その結果,予測実行時間やタスク精度に悪影響を及ぼすことなく,大幅な圧縮を実現する圧縮技術が必要である。
本稿では,この双対目的を達成するために,ハイブリッド行列分解と呼ばれる新しい圧縮手法を提案する。
hmfは、インテリジェントなハイブリッド構造を用いて行列のランクを2倍にすることで、lmf(low-rank matrix factorization)技術を改善する。
さらに、密度行列を保存することにより、プルーニングや構造行列に基づく圧縮技術よりも高速な推論実行を実現する。
複数のタスクにわたる5つのNLPベンチマーク(Translation, Intent Detection, Language Modeling)に対するこの手法の影響を評価し、同様の精度の値と圧縮係数に対して、HMFはプルーニングよりも2.32倍以上高速で、LMFより16.77%高い精度で実行可能であることを示す。
関連論文リスト
- DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Neural Network Compression using Binarization and Few Full-Precision
Weights [7.206962876422061]
自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
論文 参考訳(メタデータ) (2023-06-15T08:52:00Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Self-supervised Symmetric Nonnegative Matrix Factorization [82.59905231819685]
シンメトリー非負係数行列(SNMF)は、データクラスタリングの強力な方法であることを示した。
より良いクラスタリング結果を求めるアンサンブルクラスタリングにインスパイアされた,自己監視型SNMF(S$3$NMF)を提案する。
SNMFのコード特性に対する感度を、追加情報に頼らずに活用しています。
論文 参考訳(メタデータ) (2021-03-02T12:47:40Z) - Doping: A technique for efficient compression of LSTM models using
sparse structured additive matrices [14.321761305835972]
私たちはドーピングの概念を提案します -- 構造化マトリックスに非常にスパースなマトリックスを追加します。
ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。
同一精度で1.3倍から2.4倍の圧縮係数を達成することにより,dip kp圧縮技術は従来の技術圧縮結果を上回ることを示した。
論文 参考訳(メタデータ) (2021-02-14T05:14:09Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z) - A High-Performance Implementation of Bayesian Matrix Factorization with
Limited Communication [10.639704288188767]
行列分解アルゴリズムは予測の不確実性を定量化し、過度な適合を避けることができる。
計算コストが禁じられているため、大規模なデータには広く使われていない。
スケーラビリティに対する両アプローチの最先端が組み合わさることを示します。
論文 参考訳(メタデータ) (2020-04-06T11:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。