論文の概要: ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models
- arxiv url: http://arxiv.org/abs/2312.05821v3
- Date: Wed, 18 Sep 2024 04:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 23:35:48.056921
- Title: ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models
- Title(参考訳): ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解
- Authors: Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun,
- Abstract要約: 大規模言語モデル(LLM)のための新しい訓練後圧縮パラダイムを提案する。
我々は、アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
- 参考スコア(独自算出の注目度): 28.231997641388343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new post-training compression paradigm for Large Language Models (LLMs) to facilitate their wider adoption. We delve into LLM weight low-rank factorization, and find that the challenges of this task stem from the outlier phenomenon in the LLM activations and the sensitivity difference among various kinds of layers. To address these issues, we propose a training-free approach called Activation-aware Singular Value Decomposition (ASVD). Specifically, ASVD manages activation outliers by scaling the weight matrix based on the activation distribution, thereby enhancing decomposition accuracy. Additionally, we propose an efficient iterative calibration process to optimize layer-specific decomposition by addressing the varying sensitivity of different LLM layers. ASVD can compress a network by 10-20%, without compromising the performance of LLMs. Based on the success of the low-rank decomposition of projection matrices in the self-attention module, we further introduce ASVD to compress the KV cache. By reducing the channel dimension of KV activations, memory requirements for KV cache can be largely reduced. Thanks to the 50-75% reduction in the rank of the KV projection matrices, ASVD can further achieve 50% KV cache reductions without performance drop in a training-free manner.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の学習後圧縮パラダイムを提案する。
この課題は, LLMの活性化における外乱現象と, 各種層間の感度差に起因する。
これらの課題に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
具体的には、アクティベーション分布に基づいて重み行列をスケーリングすることにより、アクティベーション出力を管理することにより、分解精度を向上する。
さらに, 異なるLCM層の感度変化に対処して, 層固有の分解を最適化する効率的な反復校正法を提案する。
ASVDは、LLMの性能を損なうことなく、ネットワークを10-20%圧縮することができる。
自己アテンションモジュールにおけるプロジェクション行列の低ランク分解の成功に基づいて、我々はさらにASVDを導入し、KVキャッシュを圧縮する。
KVアクティベーションのチャネル次元を小さくすることで、KVキャッシュのメモリ要求を大幅に削減できる。
KVプロジェクション行列のランクの50-75%の低下により、ASVDはトレーニング不要な方法で性能低下を伴わずに50%のKVキャッシュ削減を達成できる。
関連論文リスト
- From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models [27.795088366122297]
LiteVAEは、潜在拡散モデル(LDM)のためのオートエンコーダのファミリーである
我々のモデルは、現在のLCDにおける確立されたVAEの品質と、エンコーダパラメータの6倍の削減とを一致させる。
私たちのより大きなモデルは、評価されたすべてのメトリクスで、同等の複雑さのVAEよりも優れています。
論文 参考訳(メタデータ) (2024-05-23T12:06:00Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models [1.530997923234786]
大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
その結果,9%のモデルサイズ削減を最小限の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression [14.818355326032538]
大規模言語モデル(LLM)のための新しいSVDベースの圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-12T07:31:18Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
量子化はKVキャッシュアクティベーションを圧縮するための有望なアプローチである。
KVアクティベーションを定量化する新しい手法を取り入れたKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。