論文の概要: ASVD: Activation-aware Singular Value Decomposition for Compressing
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.05821v1
- Date: Sun, 10 Dec 2023 08:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:24:45.676739
- Title: ASVD: Activation-aware Singular Value Decomposition for Compressing
Large Language Models
- Title(参考訳): ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解
- Authors: Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun
- Abstract要約: 本稿では,Large Language Models (LLMs) 圧縮のためのポストホック学習自由圧縮パラダイムについて検討する。
本稿では,これらの制約に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニングフリーアプローチを提案する。
実験により、ASVDは推論能力を失うことなく、ネットワークを10%から20%圧縮できることが示された。
- 参考スコア(独自算出の注目度): 29.91507136828938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores a new post-hoc training-free compression paradigm for
compressing Large Language Models (LLMs) to facilitate their wider adoption in
various computing environments. We delve into the challenges of LLM
compression, notably their dependency on extensive training data and
computational resources. We propose a training-free approach dubbed
Activation-aware Singular Value Decomposition (ASVD) to address these
limitations. ASVD effectively manages activation outliers by adjusting the
weight matrix based on the activation distribution, improving decomposition
accuracy and efficiency. Our method also addresses the varying sensitivity of
different LLM layers to decomposition, with an iterative calibration process
for optimal layer-specific decomposition. Experiments demonstrate that ASVD can
compress network by 10%-20% without losing reasoning capacities. Additionally,
it can be seamlessly integrated with other LLM compression paradigms,
showcasing its flexible compatibility. Code and compressed models are available
at https://github.com/hahnyuan/ASVD4LLM.
- Abstract(参考訳): 本稿では,大規模言語モデル (llm) を圧縮し,様々なコンピューティング環境において広く採用するための,ポストホックなトレーニングフリーな新しい圧縮パラダイムについて検討する。
LLM圧縮の課題、特に、広範囲なトレーニングデータと計算資源への依存について調べる。
本稿では,これらの制約に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニングフリーアプローチを提案する。
ASVDは、活性化分布に基づいて重み行列を調整し、分解精度と効率を向上させることにより、活性化出力を効果的に管理する。
また, 最適層比分解のための繰り返しキャリブレーション法を用いて, 異なるLCM層の分解感度の変動に対処する。
ASVDは推論能力を失うことなく、ネットワークを10%から20%圧縮できることを示した。
加えて、他のLLM圧縮パラダイムとシームレスに統合することができ、柔軟性のある互換性を示している。
コードと圧縮されたモデルはhttps://github.com/hahnyuan/ASVD4LLMで入手できる。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。
パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。
1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文 参考訳(メタデータ) (2024-10-17T04:35:57Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。