論文の概要: LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs
- arxiv url: http://arxiv.org/abs/2605.29756v1
- Date: Thu, 28 May 2026 11:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.191666
- Title: LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs
- Title(参考訳): LFQ:低ビット量子化LDMの生成品質向上のためのログ対応ファイナルブロック量子化
- Authors: Jung Hyun Lee, June Yong Yang, Jungwook Choi, Eunho Yang,
- Abstract要約: ブロックワイドPTQの簡易かつ効果的な拡張であるLFQ(Logit-aware Final-block Quantization)を導入する。
LFQは、最先端のブロックワイドPTQよりも複雑な生成タスクの精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 52.1276403258812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models continue to scale, low-bit weight-only post-training quantization (PTQ) offers a practical solution to their memory-efficient deployment. Although block-wise PTQ is capable of matching the full-precision (FP) baseline on basic language modeling and understanding, its quality is degraded for generative tasks -- especially at longer responses and extended chains of thought, which is critical in boosting task accuracy. We attribute this shortfall to two factors: (i) the omission of the unembedding layer (the LM head) in block-wise optimization and (ii) the reliance on the mean squared error (MSE) objective. Both factors cause the token probability distribution of the quantized model to misalign with that of the FP model, yielding notable accuracy drops on text generation benchmarks. To rectify the discrepancy, we introduce Logit-aware Final-block Quantization (LFQ), a simple yet effective enhancement to block-wise PTQ that quantizes the final Transformer block by minimizing the cross-entropy between the logits of the FP model and those of its quantized counterpart. By aligning token probabilities at the logit level in the final block, LFQ consistently improves the accuracy of complex generation tasks over state-of-the-art block-wise PTQ across diverse model families, while maintaining parity with FP baselines on language modeling and understanding.
- Abstract(参考訳): 大規模言語モデルが拡大を続けるにつれ、低ビット量のみのポストトレーニング量子化(PTQ)は、メモリ効率のデプロイに対して実用的なソリューションを提供する。
ブロックワイズPTQは、基本言語モデリングと理解に基づくフル精度(FP)ベースラインをマッチングできるが、その品質は、生成タスク -- 特に長い応答と、タスクの正確性を高める上で重要な思考の連鎖 -- において劣化する。
この欠点は2つの要因に起因している。
一 ブロックワイド最適化及び非埋め込み層(LMヘッド)の省略
(二)平均二乗誤差(MSE)の目的に依存すること。
どちらの要因も量子化モデルのトークン確率分布をFPモデルと誤認させ、テキスト生成ベンチマークに顕著な精度低下をもたらす。
差分を補正するために、FPモデルのロジットとその量子化されたブロックとのクロスエントロピーを最小化することにより、最終トランスフォーマーブロックを量子化するブロックワイドPTQの簡易かつ効果的な拡張である、ロジット対応ファイナルブロック量子化(LFQ)を導入する。
最終ブロックのロジットレベルでトークン確率を調整することにより、LFQは、言語モデリングと理解に基づくFPベースラインと同等を維持しながら、様々なモデルファミリにわたる最先端のブロックワイドPTQよりも複雑な生成タスクの精度を一貫して向上する。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
層ワイドPTQは大規模言語モデル(LLM)を圧縮するための有望な手法である
この領域の最近の進歩は飽和しており、中核的な制限を再検討し、さらなる改善を検討する必要性を浮き彫りにしている。
本稿では,量子化エラーを明示的に伝播し,蓄積したエラーを補償することにより,レイヤワイズPTQを向上させる,汎用的で軽量でスケーラブルなフレームワークである量子化エラー伝播(QEP)を提案する。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。