Fugu-MT 論文翻訳(概要): LCQ: Low-Rank Codebook based Quantization for Large Language Models

論文の概要: LCQ: Low-Rank Codebook based Quantization for Large Language Models

arxiv url: http://arxiv.org/abs/2405.20973v1
Date: Fri, 31 May 2024 16:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 13:48:55.070246
Title: LCQ: Low-Rank Codebook based Quantization for Large Language Models
Title（参考訳）: LCQ: 大規模言語モデルのための低ランクコードブックベースの量子化
Authors: Wen-Pu Cai, Wu-Jun Li,
Abstract要約: 大規模言語モデルに対する低ランクコードブックに基づく量子化を提案する。実験の結果,LCQ はストレージコストが比較的高い既存手法よりも精度がよいことがわかった。
参考スコア（独自算出の注目度）: 12.004172212239848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models~(LLMs) have recently demonstrated promising performance in many tasks. However, the high storage and computational cost of LLMs has become a challenge for deploying LLMs. Weight quantization has been widely used for model compression, which can reduce both storage and computational cost. Most existing weight quantization methods for LLMs use a rank-one codebook for quantization, which results in substantial accuracy loss when the compression ratio is high. In this paper, we propose a novel weight quantization method, called low-rank codebook based quantization~(LCQ), for LLMs. LCQ adopts a low-rank codebook, the rank of which can be larger than one, for quantization. Experiments show that LCQ can achieve better accuracy than existing methods with a negligibly extra storage cost.
Abstract（参考訳）: 大規模言語モデル~(LLM)は、最近、多くのタスクで有望なパフォーマンスを示した。しかし、LLMの高ストレージ化と計算コストは、LLMの展開の課題となっている。軽量量子化はモデル圧縮に広く使われており、ストレージと計算コストの両方を削減できる。 LLMの既存の重み量子化法の多くは、量子化のためのランクワン符号ブックを使用しており、圧縮比が高いとかなり精度が低下する。本稿では,LLMのための低ランクコードブックベースの量子化~(LCQ)と呼ばれる新しい重み量子化法を提案する。 LCQは量子化のために低ランクのコードブックを採用しており、そのランクは1より大きい。実験の結果,LCQ はストレージコストが極めて高い既存手法よりも精度がよいことがわかった。

関連論文リスト

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [57.38479416921167]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。 LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。 QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文参考訳（メタデータ） (2024-10-15T05:57:51Z)
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビットウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文参考訳（メタデータ） (2024-07-16T09:32:07Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文参考訳（メタデータ） (2024-06-10T15:44:22Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs [10.385919320080017]
大規模言語モデルのためのトレーニング不要かつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。 EasyQuantはオリジナルのモデルに匹敵するパフォーマンスを実現している。我々のアルゴリズムはデータ依存手法の10倍以上の速度で動作します。
論文参考訳（メタデータ） (2024-03-05T08:45:30Z)
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。 IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文参考訳（メタデータ） (2024-03-02T16:05:26Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。