論文の概要: Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2405.10616v1
- Date: Fri, 17 May 2024 08:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:42:27.386858
- Title: Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization
- Title(参考訳): ベイズ最適化による大規模言語モデルの特徴量に基づく低ランク圧縮
- Authors: Yixin Ji, Yang Xiang, Juntao Li, Wei Chen, Zhongyi Liu, Kehai Chen, Min Zhang,
- Abstract要約: 低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 40.15915011575071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have driven advances in natural language processing. Still, their growing scale has increased the computational burden, necessitating a balance between efficiency and performance. Low-rank compression, a promising technique, reduces non-essential parameters by decomposing weight matrices into products of two low-rank matrices. Yet, its application in LLMs has not been extensively studied. The key to low-rank compression lies in low-rank factorization and low-rank dimensions allocation. To address the challenges of low-rank compression in LLMs, we conduct empirical research on the low-rank characteristics of large models. We propose a low-rank compression method suitable for LLMs. This approach involves precise estimation of feature distributions through pooled covariance matrices and a Bayesian optimization strategy for allocating low-rank dimensions. Experiments on the LLaMA-2 models demonstrate that our method outperforms existing strong structured pruning and low-rank compression techniques in maintaining model performance at the same compression ratio.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が自然言語処理の進歩を促している。
それでも、その成長スケールは計算負担を増大させ、効率と性能のバランスを必要とする。
低ランク圧縮は有望な手法であり、重量行列を2つの低ランク行列の積に分解することで非必須パラメータを削減する。
しかし、LLMにおけるその応用は広く研究されていない。
低ランク圧縮の鍵は、低ランク因子化と低ランク次元割り当てにある。
LLMにおける低ランク圧縮の課題に対処するため,大型モデルの低ランク特性に関する実証的研究を行った。
LLMに適した低ランク圧縮法を提案する。
このアプローチは、プール化共分散行列による特徴分布の正確な推定と、低ランク次元を割り振るためのベイズ最適化戦略を含む。
LLaMA-2モデルに対する実験により,本手法は,モデル性能を同じ圧縮比で維持する上で,既存の強い構造化プルーニングおよび低ランク圧縮技術より優れることを示した。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。
Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。
SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs [1.5503410315996757]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。
本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-08-02T04:45:58Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。