論文の概要: ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models
- arxiv url: http://arxiv.org/abs/2312.05821v2
- Date: Fri, 24 May 2024 06:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 23:36:34.756572
- Title: ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models
- Title(参考訳): ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解
- Authors: Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun,
- Abstract要約: 大規模言語モデル(LLM)のための新しい訓練後圧縮パラダイムを提案する。
我々は、アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
- 参考スコア(独自算出の注目度): 28.231997641388343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new post-training compression paradigm for Large Language Models (LLMs) to facilitate their wider adoption. We delve into LLM weight low-rank factorization, and find that the challenges of this task stem from the outlier phenomenon in the LLM activations and the sensitivity difference among various kinds of layers. To address these issues, we propose a training-free approach called Activation-aware Singular Value Decomposition (ASVD). Specifically, ASVD manages activation outliers by scaling the weight matrix based on the activation distribution, thereby enhancing decomposition accuracy. Additionally, we propose an efficient iterative calibration process to optimize layer-specific decomposition by addressing the varying sensitivity of different LLM layers. ASVD can compress a network by 10-20%, without compromising the performance of LLMs. Based on the success of the low-rank decomposition of projection matrices in the self-attention module, we further introduce ASVD to compress the KV cache. By reducing the channel dimension of KV activations, memory requirements for KV cache can be largely reduced. Thanks to the 50-75% reduction in the rank of the KV projection matrices, ASVD can further achieve 50% KV cache reductions without performance drop in a training-free manner.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の学習後圧縮パラダイムを提案する。
この課題は, LLMの活性化における外乱現象と, 各種層間の感度差に起因する。
これらの課題に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
具体的には、アクティベーション分布に基づいて重み行列をスケーリングすることにより、アクティベーション出力を管理することにより、分解精度を向上する。
さらに, 異なるLCM層の感度変化に対処して, 層固有の分解を最適化する効率的な反復校正法を提案する。
ASVDは、LLMの性能を損なうことなく、ネットワークを10-20%圧縮することができる。
自己アテンションモジュールにおけるプロジェクション行列の低ランク分解の成功に基づいて、我々はさらにASVDを導入し、KVキャッシュを圧縮する。
KVアクティベーションのチャネル次元を小さくすることで、KVキャッシュのメモリ要求を大幅に削減できる。
KVプロジェクション行列のランクの50-75%の低下により、ASVDはトレーニング不要な方法で性能低下を伴わずに50%のKVキャッシュ削減を達成できる。
関連論文リスト
- Dobi-SVD: Differentiable SVD for LLM Compression and Some New Perspectives [59.46211685419206]
SVDの最適利用は、単にアクティベーションを最適化距離として使うのではなく、停止するアクティベーションに関係していると論じる。
本稿では, SVD に基づく LLM 圧縮に対して, 新たな原理的アプローチを確立する Dobi-SVD を提案する。
論文 参考訳(メタデータ) (2025-02-04T21:17:51Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。
パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。
1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文 参考訳(メタデータ) (2024-10-17T04:35:57Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。