論文の概要: Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
- arxiv url: http://arxiv.org/abs/2406.16330v1
- Date: Mon, 24 Jun 2024 05:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.282811
- Title: Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
- Title(参考訳): マージングによるプルーニング:マニフォールドアライメントに基づくレイヤマージングによるLLM圧縮
- Authors: Deyuan Liu, Zhanyue Qin, Hairu Wang, Zhao Yang, Zecheng Wang, Fangying Rong, Qingbin Liu, Yanchao Hao, Xi Chen, Cunhang Fan, Zhao Lv, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui,
- Abstract要約: 我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
- 参考スコア(独自算出の注目度): 14.123313596780726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) excel in many domains, their complexity and scale challenge deployment in resource-limited environments. Current compression techniques, such as parameter pruning, often fail to effectively utilize the knowledge from pruned parameters. To address these challenges, we propose Manifold-Based Knowledge Alignment and Layer Merging Compression (MKA), a novel approach that uses manifold learning and the Normalized Pairwise Information Bottleneck (NPIB) measure to merge similar layers, reducing model size while preserving essential performance. We evaluate MKA on multiple benchmark datasets and various LLMs. Our findings show that MKA not only preserves model performance but also achieves substantial compression ratios, outperforming traditional pruning methods. Moreover, when coupled with quantization, MKA delivers even greater compression. Specifically, on the MMLU dataset using the Llama3-8B model, MKA achieves a compression ratio of 43.75% with a minimal performance decrease of only 2.82\%. The proposed MKA method offers a resource-efficient and performance-preserving model compression technique for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのドメインで優れていますが、その複雑さとリソース制限された環境でのスケールアップに挑戦しています。
パラメータプルーニングのような現在の圧縮技術は、プルーニングされたパラメータからの知識を効果的に活用できないことが多い。
これらの課題に対処するために,多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック(NPIB)を用いたモデルサイズを低減し,本質的な性能を維持しつつ,モデルサイズを低減させる新しい手法であるManifold-Based Knowledge Alignment and Layer Merging Compression (MKA)を提案する。
複数のベンチマークデータセットと様々なLLMを用いてMKAを評価する。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
さらに、量子化と組み合わせることで、MKAはさらに大きな圧縮を提供する。
具体的には、Llama3-8Bモデルを用いたMMLUデータセットにおいて、MKAは43.75%の圧縮比を達成し、最小性能は2.82\%である。
提案手法は, LLMに対する資源効率, 性能保存モデル圧縮技術を提供する。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。
Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。
SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。