Fugu-MT 論文翻訳(概要): Low-Rank Prune-And-Factorize for Language Model Compression

論文の概要: Low-Rank Prune-And-Factorize for Language Model Compression

arxiv url: http://arxiv.org/abs/2306.14152v1
Date: Sun, 25 Jun 2023 07:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 16:33:24.705218
Title: Low-Rank Prune-And-Factorize for Language Model Compression
Title（参考訳）: 言語モデル圧縮のための低ランクプルーネ・アンド・ファクタライズ
Authors: Siyu Ren, Kenny Q. Zhu
Abstract要約: マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
参考スコア（独自算出の注目度）: 18.088550230146247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The components underpinning PLMs -- large weight matrices -- were shown to bear considerable redundancy. Matrix factorization, a well-established technique from matrix theory, has been utilized to reduce the number of parameters in PLM. However, it fails to retain satisfactory performance under moderate to high compression rate. In this paper, we identify the \textit{full-rankness} of fine-tuned PLM as the fundamental bottleneck for the failure of matrix factorization and explore the use of network pruning to extract low-rank sparsity pattern desirable to matrix factorization. We find such low-rank sparsity pattern exclusively exists in models generated by first-order pruning, which motivates us to unite the two approaches and achieve more effective model compression. We further propose two techniques: sparsity-aware SVD and mixed-rank fine-tuning, which improve the initialization and training of the compression procedure, respectively. Experiments on GLUE and question-answering tasks show that the proposed method has superior compression-performance trade-off compared to existing approaches.
Abstract（参考訳）: PLM(大型重量行列)を支える部品には、かなりの冗長性があることが示されている。行列論の確立した手法である行列分解は、PLMにおけるパラメータの削減に利用されてきた。しかし、中程度から高い圧縮速度で良好な性能を維持することができない。本稿では,微調整plmの \textit{full-rankness} を,行列因子分解の失敗の基本的なボトルネックとし,ネットワークプルーニングを用いて行列因子分解に好適な低位スパルシティパターンを抽出することを検討する。このような低ランク空間パターンは1次プルーニングによって生成されたモデルにのみ存在し、2つのアプローチを統一し、より効率的なモデル圧縮を実現する動機となる。さらに、圧縮手順の初期化と訓練を改善するために、空間認識型SVDと混合ランク微調整の2つの手法を提案する。 GLUEと質問応答タスクの実験により,提案手法は既存の手法に比べて圧縮性能のトレードオフが優れていることが示された。

関連論文リスト

Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文参考訳（メタデータ） (2025-02-20T23:18:39Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文参考訳（メタデータ） (2025-02-02T20:23:32Z)
Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
本稿では,任意の低ランク表現のコンパクトな形式を教師なしで学習する,新しい低ランク表現であるPivoting Factorization(PIFA)を提案する。低ランクプルーニングによる性能劣化を軽減するため,リトレーニング不要な新しい低ランク再構築手法を提案する。 MPIFAは、既存の低ランクプルーニング法を著しく上回り、半構造化プルーニングに匹敵する性能を初めて達成した。
論文参考訳（メタデータ） (2025-01-31T12:36:31Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文参考訳（メタデータ） (2023-10-10T17:06:41Z)
A Novel Maximum-Entropy-Driven Technique for Low-Rank Orthogonal Nonnegative Matrix Factorization with $\ell_0$-Norm sparsity Constraint [0.0]
データ駆動制御と機械学習では、大きな行列を小さく、低ランクな要素に分解する、という一般的な要件がある。本稿では,直交非負行列分解(ONMF)問題に対する革新的な解を提案する。提案手法は,文献と同等あるいは改善された復元誤差を実現する。
論文参考訳（メタデータ） (2022-10-06T04:30:59Z)
Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文参考訳（メタデータ） (2022-03-21T02:11:35Z)
Enabling Lightweight Fine-tuning for Pre-trained Language Model Compression based on Matrix Product Operators [31.461762905053426]
本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。
論文参考訳（メタデータ） (2021-06-04T01:50:15Z)
Rank and run-time aware compression of NLP Applications [12.965657113072325]
本稿では,ハイブリッド行列係数化と呼ばれる新しい圧縮手法を提案する。行列のランクを2倍にすることで、低ランク行列分解法を改善する。プルーニングよりも2.32倍高速で、LMFより16.77%精度が高い。
論文参考訳（メタデータ） (2020-10-06T16:03:15Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Multi-View Spectral Clustering Tailored Tensor Low-Rank Representation [105.33409035876691]
本稿では,テンソル低ランクモデルに基づくマルチビュースペクトルクラスタリング(MVSC)の問題について検討する。 MVSCに適合する新しい構造テンソル低ランクノルムを設計する。提案手法は最先端の手法よりもかなり優れていることを示す。
論文参考訳（メタデータ） (2020-04-30T11:52:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。