論文の概要: Rank and run-time aware compression of NLP Applications
- arxiv url: http://arxiv.org/abs/2010.03193v1
- Date: Tue, 6 Oct 2020 16:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:01:58.318814
- Title: Rank and run-time aware compression of NLP Applications
- Title(参考訳): NLPアプリケーションのランクと実行時認識圧縮
- Authors: Urmish Thakker, Jesse Beu, Dibakar Gope, Ganesh Dasika, Matthew
Mattina
- Abstract要約: 本稿では,ハイブリッド行列係数化と呼ばれる新しい圧縮手法を提案する。
行列のランクを2倍にすることで、低ランク行列分解法を改善する。
プルーニングよりも2.32倍高速で、LMFより16.77%精度が高い。
- 参考スコア(独自算出の注目度): 12.965657113072325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence model based NLP applications can be large. Yet, many applications
that benefit from them run on small devices with very limited compute and
storage capabilities, while still having run-time constraints. As a result,
there is a need for a compression technique that can achieve significant
compression without negatively impacting inference run-time and task accuracy.
This paper proposes a new compression technique called Hybrid Matrix
Factorization that achieves this dual objective. HMF improves low-rank matrix
factorization (LMF) techniques by doubling the rank of the matrix using an
intelligent hybrid-structure leading to better accuracy than LMF. Further, by
preserving dense matrices, it leads to faster inference run-time than pruning
or structure matrix based compression technique. We evaluate the impact of this
technique on 5 NLP benchmarks across multiple tasks (Translation, Intent
Detection, Language Modeling) and show that for similar accuracy values and
compression factors, HMF can achieve more than 2.32x faster inference run-time
than pruning and 16.77% better accuracy than LMF.
- Abstract(参考訳): シーケンスモデルに基づくNLPアプリケーションは大きい。
しかし、そのメリットを享受する多くのアプリケーションは、非常に限られた計算能力とストレージ能力を持つ小さなデバイス上で動作します。
その結果,予測実行時間やタスク精度に悪影響を及ぼすことなく,大幅な圧縮を実現する圧縮技術が必要である。
本稿では,この双対目的を達成するために,ハイブリッド行列分解と呼ばれる新しい圧縮手法を提案する。
hmfは、インテリジェントなハイブリッド構造を用いて行列のランクを2倍にすることで、lmf(low-rank matrix factorization)技術を改善する。
さらに、密度行列を保存することにより、プルーニングや構造行列に基づく圧縮技術よりも高速な推論実行を実現する。
複数のタスクにわたる5つのNLPベンチマーク(Translation, Intent Detection, Language Modeling)に対するこの手法の影響を評価し、同様の精度の値と圧縮係数に対して、HMFはプルーニングよりも2.32倍以上高速で、LMFより16.77%高い精度で実行可能であることを示す。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Quantization-free Lossy Image Compression Using Integer Matrix Factorization [8.009813033356478]
我々は、新しい量子化自由損失画像圧縮法を開発するために、整数行列分解(IMF)の変種を導入する。
IMFは、画像データの低ランク表現を、有界整数要素を持つ2つの小さな因子行列の積として提供する。
我々の手法は、JPEGを低ビットレートで0.25ビット/ピクセル(bpp)以下で連続的に上回り、高いビットレートで比較する。
論文 参考訳(メタデータ) (2024-08-22T19:08:08Z) - Accelerating Matrix Factorization by Dynamic Pruning for Fast Recommendation [0.49399484784577985]
MF(Matrix Factorization)は、リコメンデーションシステム(RS)のための協調フィルタリングアルゴリズムである。
現在のRSではユーザ/イテムが劇的に増加しているため、MFモデルのトレーニングに要する計算の複雑さは大幅に増大している。
我々は、追加の計算資源を誘導することなく、MFを高速化するアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T16:27:33Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Doping: A technique for efficient compression of LSTM models using
sparse structured additive matrices [14.321761305835972]
私たちはドーピングの概念を提案します -- 構造化マトリックスに非常にスパースなマトリックスを追加します。
ドーピングは、少数のパラメータに対する追加の自由度を促進し、固定構造から独立して分離することを可能にする。
同一精度で1.3倍から2.4倍の圧縮係数を達成することにより,dip kp圧縮技術は従来の技術圧縮結果を上回ることを示した。
論文 参考訳(メタデータ) (2021-02-14T05:14:09Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - A High-Performance Implementation of Bayesian Matrix Factorization with
Limited Communication [10.639704288188767]
行列分解アルゴリズムは予測の不確実性を定量化し、過度な適合を避けることができる。
計算コストが禁じられているため、大規模なデータには広く使われていない。
スケーラビリティに対する両アプローチの最先端が組み合わさることを示します。
論文 参考訳(メタデータ) (2020-04-06T11:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。