論文の概要: DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization
- arxiv url: http://arxiv.org/abs/2412.20185v2
- Date: Tue, 24 Jun 2025 16:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:07.999493
- Title: DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization
- Title(参考訳): DecDEC:低ビットLSM量子化のシステムアプローチ
- Authors: Yeonhong Park, Jake Hyun, Hojoon Kim, Jae W. Lee,
- Abstract要約: 大規模言語モデル(LLM)の量子化は、特にハードウェアリソースが限られているデバイス上の設定において、最近人気を集めている。
我々は、量子化の重要な利点を保ちながら、低ビットLLMの品質を向上させる推論スキームであるDecDECを提案する。
我々は,最先端の量子化手法を改良し,DecDECの有効性を示す。
- 参考スコア(独自算出の注目度): 4.451442297864655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization of Large Language Models (LLMs) has recently gained popularity, particularly for on-device settings with limited hardware resources. While efficient, quantization inevitably degrades model quality, especially in aggressive low-bit settings such as 3-bit and 4-bit precision. In this paper, we propose DecDEC, an inference scheme that improves the quality of low-bit LLMs while preserving the key benefits of quantization: GPU memory savings and latency reduction. DecDEC stores the residual matrix -- the difference between full-precision and quantized weights -- in CPU, and dynamically fetches the residuals for only a small portion of the weights. This portion corresponds to the salient channels, marked by activation outliers, with the fetched residuals helping to correct quantization errors in these channels. Salient channels are identified dynamically at each decoding step by analyzing the input activations -- this enables adaptation to the dynamic nature of activation distribution, thus maximizing the effectiveness of error compensation. We demonstrate the effectiveness of DecDEC by augmenting state-of-the-art quantization methods. For example, DecDEC reduces the perplexity of a 3-bit Llama-3-8B-Instruct model from 10.15 to 9.12 -- outperforming its 3.5-bit counterpart -- while adding less than 0.0003\% to GPU memory usage and incurring only a 1.7\% inference slowdown on NVIDIA RTX 4050 Mobile.
- Abstract(参考訳): 大規模言語モデル(LLM)の量子化は、特にハードウェアリソースが限られているデバイス上の設定において、最近人気を集めている。
量子化は効率的ではあるが、特に3ビットや4ビットの精度のような攻撃的な低ビット設定では、モデルの品質を必然的に劣化させる。
本稿では,GPUメモリの節約と遅延低減という,量子化の重要な利点を保ちつつ,低ビットLLMの品質を向上する推論手法であるDecDECを提案する。
DecDECは、CPUに残差行列 -- 完全精度と量子化重量の差 -- を格納し、重量のごく一部だけ残差を動的に取得する。この部分は、アクティベーションアウトレーヤによってマークされた正常なチャネルに対応し、これらのチャネルの量子化エラーを補正するのに役立つ。入力アクティベーションを解析することで、各デコードステップで正則なチャネルを動的に識別する。これにより、アクティベーション分布の動的性質への適応を可能にし、エラー補償の有効性を最大化する。
我々は,最先端の量子化手法を改良し,DecDECの有効性を示す。
例えば、DecDECは3ビットのLlama-3-8Bインストラクトモデルの難易度を10.15から9.12に減らし、3.5ビットモデルよりも優れており、GPUメモリ使用量に0.0003\%未満を追加し、NVIDIA RTX 4050 Mobileでは1.7\%の推論速度低下しか生じない。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。
提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。
MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。
また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文 参考訳(メタデータ) (2025-03-03T12:43:06Z) - FBQuant: FeedBack Quantization for Large Language Models [13.545647487024864]
自動制御における負のフィードバック機構にインスパイアされた新しいアプローチであるFeedBack Quantization (FBQuant)を提案する。
FBQuantは本質的に、再構成された重量が量子化によって束縛されることを保証し、過剰適合のリスクを低減する。
3ビットのLlama2-7Bでは、FBQuantはゼロショット精度を1.2%向上させる。
論文 参考訳(メタデータ) (2025-01-25T06:04:07Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。