論文の概要: Fitting Is Not Enough: Smoothness in Extremely Quantized LLMs
- arxiv url: http://arxiv.org/abs/2605.08894v2
- Date: Fri, 15 May 2026 02:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.086005
- Title: Fitting Is Not Enough: Smoothness in Extremely Quantized LLMs
- Title(参考訳): 量子化LDMの滑らかさ
- Authors: Yuzhuang Xu, Xu Han, Yuxuan Li, Pengzhan Li, Wanxiang Che,
- Abstract要約: 大規模言語モデル(LLM)は高いパフォーマンスを実現するが、高いデプロイメントコストがかかる。
既存の量子化アルゴリズムは主に前方計算の数値的精度の向上に焦点を当てている。
極端に量子化されたLLMは,数値的損失を超える系統的劣化に悩まされていることを示す。
- 参考スコア(独自算出の注目度): 46.88109820641649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance but incur high deployment costs, motivating extremely low-bit but lossy quantization. Existing quantization algorithms mainly focus on improving the numerical accuracy of forward computation to eliminate performance degradation. In this paper, we show that extremely quantized LLMs suffer from systematic smoothness degradation beyond numerical precision loss. Through a smoothness proxy, we observe that such degradation becomes increasingly severe as the quantization bit-width decreases. Furthermore, based on sequence neighborhood modeling, we find that quantized models exhibit a rapid reduction of effective token candidates within the prediction neighborhood, which directly leads to a sparser decoding tree and degraded generation quality. To validate it, we introduce a simple smoothness-preserving principle in both post-training quantization and quantization-aware training, and demonstrate that preserving smoothness brings additional gains beyond numerical accuracy. The core goal of this paper is to highlight smoothness preservation as an important design consideration for future extreme quantization methods. Code is available at https://github.com/xuyuzhuang11/FINE.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高いパフォーマンスを実現するが、高いデプロイメントコストを伴い、非常に低ビットだが損失のある量子化を動機付けている。
既存の量子化アルゴリズムは主に、性能劣化をなくすためにフォワード計算の数値的精度を改善することに重点を置いている。
本稿では,超量子化LDMが,数値的精度損失を超えた体系的滑らか性劣化に悩まされていることを示す。
その結果,量子化ビット幅が減少するにつれて,このような劣化がますます深刻化することがわかった。
さらに、系列近傍モデルに基づいて、量子化モデルは予測領域内で有効なトークン候補を迅速に減少させ、スペーサーデコードツリーと劣化した生成品質に直接導出することを示した。
これを検証するために,学習後の量子化と量子化対応トレーニングの両方において,簡単なスムーズネス保存原理を導入し,スムーズさの保存が数値的精度以上のメリットをもたらすことを示した。
本論文の中核となる目的は、将来の極端量子化手法の設計上の重要な考慮事項として、滑らかさの保存に焦点を当てることである。
コードはhttps://github.com/xuyuzhuang11/FINE.comから入手できる。
関連論文リスト
- CodeQuant: Unified Clustering and Quantization for Enhanced Outlier Smoothing in Low-Precision Mixture-of-Experts [11.005678744572888]
アウトレーヤは、低精度の大型モデルの精度を維持するための基本的なボトルネックとして現れている。
我々は,学習可能な回転および重み付き外周波をMoE用微調整クラスタセントロイドに吸収することで,活性化外周波の滑らか化を含む統一量子化クラスタリング方式であるCodeQuantを紹介する。
CodeQuantは最大$4.15timesのスピードアップを実現し、様々なMoEモデルにまたがる最先端の量子化アプローチよりもはるかに高い精度を実現している。
論文 参考訳(メタデータ) (2026-04-12T07:06:16Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Understanding the Difficulty of Low-Precision Post-Training Quantization for LLMs [4.5529796609245805]
高いパラメータ数を持つ大規模言語モデルは計算コストが高いが、その重みを非常に低い数値精度に圧縮することで、はるかに効率的にすることができる。
同じデータ制約下では、前者のアプローチは後者よりもほぼ常に悪化しており、数値精度が非常に低い場合に特に顕著な現象である。
論文 参考訳(メタデータ) (2024-10-18T16:16:52Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。