論文の概要: Layer-wise dynamic rank for compressing large language models
- arxiv url: http://arxiv.org/abs/2509.25622v2
- Date: Sat, 04 Oct 2025 02:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 12:09:05.12579
- Title: Layer-wise dynamic rank for compressing large language models
- Title(参考訳): 大規模言語モデル圧縮のための階層的動的ランク付け
- Authors: Zhendong Mi, Bian Sun, Grace Li Zhang, Shaoyi Huang,
- Abstract要約: 大規模言語モデル(LLM)は急速に規模を拡大し、深刻なメモリと計算上の問題を引き起こしている。
LLM圧縮のための動的ランク割り当てを階層的にバランスよく行うフレームワークであるD-Rankを提案する。
- 参考スコア(独自算出の注目度): 2.9416461160070955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have rapidly scaled in size, bringing severe memory and computational challenges that hinder their deployment. Singular Value Decomposition (SVD)-based compression has emerged as an appealing post-training compression technique for LLMs, yet most existing methods apply a uniform compression ratio across all layers, implicitly assuming homogeneous information included in various layers. This overlooks the substantial intra-layer heterogeneity observed in LLMs, where middle layers tend to encode richer information while early and late layers are more redundant. In this work, we revisit the existing SVD-based compression method and propose D-Rank, a framework with layer-wise balanced Dynamic Rank allocation for LLMs compression. We first introduce effective rank as a principled metric to measure the information density of weight matrices, and then allocate ranks via a Lagrange multiplier-based optimization scheme to adaptively assign more capacity to groups with higher information density under a fixed compression ratio. Moreover, we rebalance the allocated ranks across attention layers to account for their varying importance and extend D-Rank to latest LLMs with grouped-query attention. Extensive experiments on various LLMs with different scales across multiple compression ratios demonstrate that D-Rank consistently outperforms SVD-LLM, ASVD, and Basis Sharing, achieving more than 15 lower perplexity with LLaMA-3-8B model on C4 datasets at 20% compression ratio and up to 5% higher zero-shot reasoning accuracy with LLaMA-7B model at 40% compression ratio while achieving even higher throughput.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に規模を拡大し、メモリと計算の重大な問題を引き起こし、デプロイメントを妨げている。
Singular Value Decomposition (SVD) ベースの圧縮は,LLMのトレーニング後圧縮技術として注目されているが,既存のほとんどの手法では各層に均一な圧縮比を適用し,各層に含まれる均一な情報を暗黙的に仮定している。
これは、中層がよりリッチな情報をエンコードする傾向にある一方、初期層と後期層はより冗長であるLLMで観測される実質的な層内不均一性を見落としている。
本研究では,既存のSVDベースの圧縮手法を再検討し,LCMの動的ランクアロケーションを階層的にバランスするフレームワークであるD-Rankを提案する。
まず、重み行列の情報密度を測定するための原理的尺度として有効ランクを導入し、次にラグランジュ乗算器に基づく最適化スキームを用いて、固定圧縮比の下で高い情報密度を持つグループに適応的により多くのキャパシティを割り当てるランクを割り当てる。
さらに,注目層間で配分されたランクを再調整し,その重要性を考慮し,グループ化された注目度を持つ最新のLCMにD-Rankを拡張した。
複数の圧縮比のスケールの異なる様々なLLMにおいて、D-RankはSVD-LLM, ASVD, Basis Sharingを一貫して上回り、C4データセット上のLLaMA-3-8Bモデルでは、20%圧縮比で15以上の低いパープレキシティを達成し、LLaMA-7Bモデルでは最大5%高いゼロショット推論精度を40%圧縮比で達成している。
関連論文リスト
- MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs [9.244526043014098]
MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
論文 参考訳(メタデータ) (2025-07-04T04:54:01Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。
本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。
総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T14:30:02Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。