論文の概要: MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs
- arxiv url: http://arxiv.org/abs/2507.03294v1
- Date: Fri, 04 Jul 2025 04:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.662168
- Title: MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs
- Title(参考訳): MGAA:LLMの低域圧縮のマルチグラニュラー適応アロケーション
- Authors: Guangyan Li, Yongqiang Tang, Wensheng Zhang,
- Abstract要約: MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
- 参考スコア(独自算出の注目度): 9.244526043014098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The enormous parameter scale of large language models (LLMs) has made model compression a research hotspot, which aims to alleviate computational resource demands during deployment and inference. As a promising direction, low-rank approximation technique has made remarkable achievements. Nevertheless, unfortunately, the vast majority of studies to low-rank approximation compression generally apply uniform compression ratios across all weight matrices, while disregarding their inherently differentiated impacts on the model's performance. Although a few recent work attempts to employ heuristic search strategies to achieve the optimal parameter allocation, such strategies are computationally inefficient and lose the generalization ability in the era of LLMs. In this study, we propose a novel parameter Multi-Granular Adaptive Allocation (MGAA) method, which can adaptively allocate parameters between and within sublayers without task-specific evaluations in the compression process. MGAA consists of two components: 1) Among different sublayers, it assigns compression ratios based on their cosine similarity between inputs and outputs, allowing for a more tailored compression in sublayers with varying degrees of importance, and 2) Within each sublayer, it allocates different compression ratios to weight matrices based on their energy distribution characteristics, ensuring a consistent energy retention ratio while optimizing compression efficiency. Comprehensive evaluations of MGAA across multiple LLMs backbone models and benchmark datasets demonstrate its superior performance. Additionally, we apply our MGAA to multimodal model LLaVA, exhibiting remarkable performance improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)の膨大なパラメータスケールは、モデル圧縮を研究ホットスポットにした。
有望な方向として、低ランク近似技術は目覚ましい成果を上げている。
しかしながら、不運なことに、低ランク近似圧縮に関するほとんどの研究は、モデルの性能に本質的に異なる影響を無視しながら、一般に全ての重み行列に対して一様圧縮比を適用している。
近年、最適パラメータ割り当てを実現するためにヒューリスティックな探索戦略を採用する試みがいくつかあるが、そのような戦略は計算的に非効率であり、LLMの時代に一般化能力を失っている。
本研究では,タスク固有の評価を伴わずにサブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てる,MGAA(Multi-Granular Adaptive Allocation)手法を提案する。
MGAAは2つのコンポーネントから構成される。
1) 異なるサブレイヤの中で、入力と出力のコサイン類似性に基づいて圧縮比を割り当て、重要度が異なるサブレイヤにおいてより調整された圧縮を可能にする。
2) 各層内では, 圧縮効率を最適化しつつ, エネルギー分布特性に基づいて, 重量行列に異なる圧縮比を割り当て, 一貫したエネルギー保持比を確保する。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
さらに、MGAAをマルチモーダルモデルLLaVAに適用し、優れた性能向上を実現した。
関連論文リスト
- Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression [26.51079570548107]
本稿では,新しい圧縮フレームワークGRASP(Gradient-based Retention of Adaptive Singular Parameters)を提案する。
冗長なレイヤを最小限のパラメータセットで置き換えることによって、GRASPは、最小限のオーバーヘッドで強力なパフォーマンスを維持しながら、効率的な圧縮を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:22:21Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。