論文の概要: ASVD: Activation-aware Singular Value Decomposition for Compressing
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.05821v1
- Date: Sun, 10 Dec 2023 08:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:24:45.676739
- Title: ASVD: Activation-aware Singular Value Decomposition for Compressing
Large Language Models
- Title(参考訳): ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解
- Authors: Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun
- Abstract要約: 本稿では,Large Language Models (LLMs) 圧縮のためのポストホック学習自由圧縮パラダイムについて検討する。
本稿では,これらの制約に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニングフリーアプローチを提案する。
実験により、ASVDは推論能力を失うことなく、ネットワークを10%から20%圧縮できることが示された。
- 参考スコア(独自算出の注目度): 29.91507136828938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores a new post-hoc training-free compression paradigm for
compressing Large Language Models (LLMs) to facilitate their wider adoption in
various computing environments. We delve into the challenges of LLM
compression, notably their dependency on extensive training data and
computational resources. We propose a training-free approach dubbed
Activation-aware Singular Value Decomposition (ASVD) to address these
limitations. ASVD effectively manages activation outliers by adjusting the
weight matrix based on the activation distribution, improving decomposition
accuracy and efficiency. Our method also addresses the varying sensitivity of
different LLM layers to decomposition, with an iterative calibration process
for optimal layer-specific decomposition. Experiments demonstrate that ASVD can
compress network by 10%-20% without losing reasoning capacities. Additionally,
it can be seamlessly integrated with other LLM compression paradigms,
showcasing its flexible compatibility. Code and compressed models are available
at https://github.com/hahnyuan/ASVD4LLM.
- Abstract(参考訳): 本稿では,大規模言語モデル (llm) を圧縮し,様々なコンピューティング環境において広く採用するための,ポストホックなトレーニングフリーな新しい圧縮パラダイムについて検討する。
LLM圧縮の課題、特に、広範囲なトレーニングデータと計算資源への依存について調べる。
本稿では,これらの制約に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニングフリーアプローチを提案する。
ASVDは、活性化分布に基づいて重み行列を調整し、分解精度と効率を向上させることにより、活性化出力を効果的に管理する。
また, 最適層比分解のための繰り返しキャリブレーション法を用いて, 異なるLCM層の分解感度の変動に対処する。
ASVDは推論能力を失うことなく、ネットワークを10%から20%圧縮できることを示した。
加えて、他のLLM圧縮パラダイムとシームレスに統合することができ、柔軟性のある互換性を示している。
コードと圧縮されたモデルはhttps://github.com/hahnyuan/ASVD4LLMで入手できる。
関連論文リスト
- SVD-LLM: Truncation-aware Singular Value Decomposition for Large
Language Model Compression [16.187988650302223]
大規模言語モデル(LLM)のための新しいSVDベースの圧縮手法であるSVD-LLMを提案する。
SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。
SVD-LLMを3つのLLMファミリーの合計11のデータセットと7つのモデルで4つのスケールで評価した。
論文 参考訳(メタデータ) (2024-03-12T07:31:18Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [95.42228675690797]
我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in
FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。
本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T05:53:09Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Remote Multilinear Compressive Learning with Adaptive Compression [107.87219371697063]
MultiIoT Compressive Learning (MCL)は、多次元信号に対する効率的な信号取得および学習パラダイムである。
MCLモデルにそのような機能を実現するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-02T19:24:03Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。