Fugu-MT 論文翻訳(概要): ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models

論文の概要: ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models

arxiv url: http://arxiv.org/abs/2312.05821v1
Date: Sun, 10 Dec 2023 08:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 18:24:45.676739
Title: ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models
Title（参考訳）: ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解
Authors: Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun
Abstract要約: 本稿では,Large Language Models (LLMs) 圧縮のためのポストホック学習自由圧縮パラダイムについて検討する。本稿では,これらの制約に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニングフリーアプローチを提案する。実験により、ASVDは推論能力を失うことなく、ネットワークを10%から20%圧縮できることが示された。
参考スコア（独自算出の注目度）: 29.91507136828938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores a new post-hoc training-free compression paradigm for compressing Large Language Models (LLMs) to facilitate their wider adoption in various computing environments. We delve into the challenges of LLM compression, notably their dependency on extensive training data and computational resources. We propose a training-free approach dubbed Activation-aware Singular Value Decomposition (ASVD) to address these limitations. ASVD effectively manages activation outliers by adjusting the weight matrix based on the activation distribution, improving decomposition accuracy and efficiency. Our method also addresses the varying sensitivity of different LLM layers to decomposition, with an iterative calibration process for optimal layer-specific decomposition. Experiments demonstrate that ASVD can compress network by 10%-20% without losing reasoning capacities. Additionally, it can be seamlessly integrated with other LLM compression paradigms, showcasing its flexible compatibility. Code and compressed models are available at https://github.com/hahnyuan/ASVD4LLM.
Abstract（参考訳）: 本稿では,大規模言語モデル (llm) を圧縮し,様々なコンピューティング環境において広く採用するための,ポストホックなトレーニングフリーな新しい圧縮パラダイムについて検討する。 LLM圧縮の課題、特に、広範囲なトレーニングデータと計算資源への依存について調べる。本稿では,これらの制約に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニングフリーアプローチを提案する。 ASVDは、活性化分布に基づいて重み行列を調整し、分解精度と効率を向上させることにより、活性化出力を効果的に管理する。また, 最適層比分解のための繰り返しキャリブレーション法を用いて, 異なるLCM層の分解感度の変動に対処する。 ASVDは推論能力を失うことなく、ネットワークを10%から20%圧縮できることを示した。加えて、他のLLM圧縮パラダイムとシームレスに統合することができ、柔軟性のある互換性を示している。コードと圧縮されたモデルはhttps://github.com/hahnyuan/ASVD4LLMで入手できる。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
ResSVD: Residual Compensated SVD for Large Language Model Compression [12.539815070352116]
大規模言語モデル(LLM)は、幅広い下流自然言語処理タスクにおいて印象的な機能を示している。本稿では,ポストトレーニング後のSVDに基づくLLM圧縮手法であるResSVDを提案する。トラニケート過程中に発生する残留行列を利用してトラニケート損失を低減する。
論文参考訳（メタデータ） (2025-05-26T15:14:54Z)
Large Language Model Compression via the Nested Activation-Aware Decomposition [12.400791399764213]
我々は,大規模言語モデル(LLM)の低ランク分解に着目した,新しい訓練後圧縮パラダイムを導入する。低ランク分解の精度を高めるために,LLMのためのネスト型アクティベーション・アウェア・フレームワーク(NSVD)を提案する。
論文参考訳（メタデータ） (2025-03-21T12:39:16Z)
Dobi-SVD: Differentiable SVD for LLM Compression and Some New Perspectives [59.46211685419206]
SVDの最適利用は、単にアクティベーションを最適化距離として使うのではなく、停止するアクティベーションに関係していると論じる。本稿では, SVD に基づく LLM 圧縮に対して, 新たな原理的アプローチを確立する Dobi-SVD を提案する。
論文参考訳（メタデータ） (2025-02-04T21:17:51Z)
AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文参考訳（メタデータ） (2025-02-03T14:34:37Z)
Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。 SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文参考訳（メタデータ） (2024-10-30T12:08:30Z)
AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。 1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文参考訳（メタデータ） (2024-10-17T04:35:57Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。 WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)
LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文参考訳（メタデータ） (2023-04-19T11:19:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。