Fugu-MT 論文翻訳(概要): Pushing the Envelope of Low-Bit LLM via Dynamic Error Compensation

論文の概要: Pushing the Envelope of Low-Bit LLM via Dynamic Error Compensation

arxiv url: http://arxiv.org/abs/2412.20185v1
Date: Sat, 28 Dec 2024 15:51:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.510581
Title: Pushing the Envelope of Low-Bit LLM via Dynamic Error Compensation
Title（参考訳）: 低ビットLCMの動的誤差補償によるエンベロープの押し込み
Authors: Yeonhong Park, Jake Hyun, Hojoon Kim, Jae W. Lee,
Abstract要約: 大規模言語モデル(LLM)の量子化は、特にハードウェアリソースが限られているデバイス上の設定において、最近人気を集めている。量子化の重要な利点を保ちつつ、低ビットLLMの品質を向上させる推論スキームであるQDECを提案する。本稿では,最先端の量子化手法を改良し,QDECの有効性を示す。
参考スコア（独自算出の注目度）: 4.451442297864655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantization of Large Language Models (LLMs) has recently gained popularity, particularly for on-device settings with limited hardware resources. While efficient, quantization inevitably degrades model quality, especially in aggressive low-bit settings such as 3-bit and 4-bit precision. In this paper, we propose QDEC, an inference scheme that improves the quality of low-bit LLMs while preserving the key benefits of quantization: GPU memory savings and inference latency reduction. QDEC stores the residual matrix -- the difference between full-precision and quantized weights -- in CPU, and dynamically fetches the residuals for only a small portion of the weights. This portion corresponds to the salient channels, marked by activation outliers, with the fetched residuals helping to correct quantization errors in these channels. Salient channels are identified dynamically at each decoding step by analyzing the input activations -- this allows for the adaptation to the dynamic nature of activation distribution, and thus maximizes the effectiveness of error compensation. We demonstrate the effectiveness of QDEC by augmenting state-of-the-art quantization methods. For example, QDEC reduces the perplexity of a 3-bit Llama-3-8B-Instruct model from 10.15 to 9.12 -- outperforming its 3.5-bit counterpart -- while adding less than 0.0003\% to GPU memory usage and incurring only a 1.7\% inference slowdown on NVIDIA RTX 4050 Mobile GPU. The code will be publicly available soon.
Abstract（参考訳）: 大規模言語モデル(LLM)の量子化は、特にハードウェアリソースが限られているデバイス上の設定において、最近人気を集めている。量子化は効率的ではあるが、特に3ビットや4ビットの精度のような攻撃的な低ビット設定では、モデルの品質を必然的に劣化させる。本稿では、QDECを提案する。QDECは、量子化の重要な利点であるGPUメモリの節約と推論遅延の低減を保ちながら、低ビットLLMの品質を向上させる推論スキームである。 QDECは、CPUに残差行列 -- 完全精度と量子化重量の差 -- を格納し、重量のごく一部しか残差を動的に取得する。この部分は、アクティベーションアウトレーヤによってマークされた健全なチャネルに対応し、これらのチャネルの量子化エラーを補正するのに役立つ。入力アクティベーションを解析することで、各デコードステップで有意なチャネルを動的に識別する。これにより、アクティベーション分布の動的性質への適応を可能にし、エラー補償の効果を最大化する。本稿では,最先端の量子化手法を改良し,QDECの有効性を示す。例えば、QDECは3ビットのLlama-3-8B-インストラクトモデルの難易度を10.15から9.12に減らし(3.5ビットモデルを上回る)、GPUメモリ使用率に0.0003\%未満を追加し、NVIDIA RTX 4050 Mobile GPUでは1.7\%の推論速度低下しか生じない。コードはまもなく公開される予定だ。

関連論文リスト

Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.884521812433661]
Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。軽量な操作を使用して、排他的な不変チャネルを抑える。 1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文参考訳（メタデータ） (2025-05-20T07:19:36Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.13478769431063]
QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。 W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文参考訳（メタデータ） (2025-03-25T05:03:56Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
FBQuant: FeedBack Quantization for Large Language Models [13.545647487024864]
自動制御における負のフィードバック機構にインスパイアされた新しいアプローチであるFeedBack Quantization (FBQuant)を提案する。 FBQuantは本質的に、再構成された重量が量子化によって束縛されることを保証し、過剰適合のリスクを低減する。 3ビットのLlama2-7Bでは、FBQuantはゼロショット精度を1.2%向上させる。
論文参考訳（メタデータ） (2025-01-25T06:04:07Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models [0.562479170374811]
本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。 OPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。その結果、エネルギー効率を 1.62.2x に改善し、面積を 2.43.1x に減らし、精度を損なうことができる。
論文参考訳（メタデータ） (2024-09-06T02:33:20Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)
QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。 LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文参考訳（メタデータ） (2023-10-12T05:25:49Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。