論文の概要: Low-Rank Prune-And-Factorize for Language Model Compression
- arxiv url: http://arxiv.org/abs/2306.14152v1
- Date: Sun, 25 Jun 2023 07:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:33:24.705218
- Title: Low-Rank Prune-And-Factorize for Language Model Compression
- Title(参考訳): 言語モデル圧縮のための低ランクプルーネ・アンド・ファクタライズ
- Authors: Siyu Ren, Kenny Q. Zhu
- Abstract要約: マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
- 参考スコア(独自算出の注目度): 18.088550230146247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The components underpinning PLMs -- large weight matrices -- were shown to
bear considerable redundancy. Matrix factorization, a well-established
technique from matrix theory, has been utilized to reduce the number of
parameters in PLM. However, it fails to retain satisfactory performance under
moderate to high compression rate. In this paper, we identify the
\textit{full-rankness} of fine-tuned PLM as the fundamental bottleneck for the
failure of matrix factorization and explore the use of network pruning to
extract low-rank sparsity pattern desirable to matrix factorization. We find
such low-rank sparsity pattern exclusively exists in models generated by
first-order pruning, which motivates us to unite the two approaches and achieve
more effective model compression. We further propose two techniques:
sparsity-aware SVD and mixed-rank fine-tuning, which improve the initialization
and training of the compression procedure, respectively. Experiments on GLUE
and question-answering tasks show that the proposed method has superior
compression-performance trade-off compared to existing approaches.
- Abstract(参考訳): PLM(大型重量行列)を支える部品には、かなりの冗長性があることが示されている。
行列論の確立した手法である行列分解は、PLMにおけるパラメータの削減に利用されてきた。
しかし、中程度から高い圧縮速度で良好な性能を維持することができない。
本稿では,微調整plmの \textit{full-rankness} を,行列因子分解の失敗の基本的なボトルネックとし,ネットワークプルーニングを用いて行列因子分解に好適な低位スパルシティパターンを抽出することを検討する。
このような低ランク空間パターンは1次プルーニングによって生成されたモデルにのみ存在し、2つのアプローチを統一し、より効率的なモデル圧縮を実現する動機となる。
さらに、圧縮手順の初期化と訓練を改善するために、空間認識型SVDと混合ランク微調整の2つの手法を提案する。
GLUEと質問応答タスクの実験により,提案手法は既存の手法に比べて圧縮性能のトレードオフが優れていることが示された。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - A Novel Maximum-Entropy-Driven Technique for Low-Rank Orthogonal
Nonnegative Matrix Factorization with $\ell_0$-Norm sparsity Constraint [0.0]
データ駆動制御と機械学習では、大きな行列を小さく、低ランクな要素に分解する、という一般的な要件がある。
本稿では,直交非負行列分解(ONMF)問題に対する革新的な解を提案する。
提案手法は,文献と同等あるいは改善された復元誤差を実現する。
論文 参考訳(メタデータ) (2022-10-06T04:30:59Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Enabling Lightweight Fine-tuning for Pre-trained Language Model
Compression based on Matrix Product Operators [31.461762905053426]
本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。
提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。
論文 参考訳(メタデータ) (2021-06-04T01:50:15Z) - Rank and run-time aware compression of NLP Applications [12.965657113072325]
本稿では,ハイブリッド行列係数化と呼ばれる新しい圧縮手法を提案する。
行列のランクを2倍にすることで、低ランク行列分解法を改善する。
プルーニングよりも2.32倍高速で、LMFより16.77%精度が高い。
論文 参考訳(メタデータ) (2020-10-06T16:03:15Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Multi-View Spectral Clustering Tailored Tensor Low-Rank Representation [105.33409035876691]
本稿では,テンソル低ランクモデルに基づくマルチビュースペクトルクラスタリング(MVSC)の問題について検討する。
MVSCに適合する新しい構造テンソル低ランクノルムを設計する。
提案手法は最先端の手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T11:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。