論文の概要: SEPTQ: A Simple and Effective Post-Training Quantization Paradigm for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.10091v1
- Date: Sat, 11 Apr 2026 08:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.835429
- Title: SEPTQ: A Simple and Effective Post-Training Quantization Paradigm for Large Language Models
- Title(参考訳): SEPTQ:大規模言語モデルのための簡易かつ効果的なポストトレーニング量子化パラダイム
- Authors: Han Liu, Haotian Gao, Xiaotong Zhang, Changya Li, Feng Zhang, Wei Wang, Fenglong Ma, Hong Yu,
- Abstract要約: 大規模言語モデル(LLM)のための単純かつ効果的な後学習量子化パラダイムを提案する。
SEPTQはまず、重み行列の各要素の重要度を算出し、静的なグローバルな方法で量子化位置を決定する。
従来の方法と比較すると、SEPTQはトレーニング後の量子化手順を2段階に単純化し、有効性と効率を同時に考慮している。
- 参考スコア(独自算出の注目度): 35.243028473008685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable performance in various domains, but they are constrained by massive computational and storage costs. Quantization, an effective technique for compressing models to fit resource-limited devices while preserving generative quality, encompasses two primary methods: quantization aware training (QAT) and post-training quantization (PTQ). QAT involves additional retraining or fine-tuning, thus inevitably resulting in high training cost and making it unsuitable for LLMs. Consequently, PTQ has become the research hotspot in recent quantization methods. However, existing PTQ methods usually rely on various complex computation procedures and suffer from considerable performance degradation under low-bit quantization settings. To alleviate the above issues, we propose a simple and effective post-training quantization paradigm for LLMs, named SEPTQ. Specifically, SEPTQ first calculates the importance score for each element in the weight matrix and determines the quantization locations in a static global manner. Then it utilizes the mask matrix which represents the important locations to quantize and update the associated weights column-by-column until the appropriate quantized weight matrix is obtained. Compared with previous methods, SEPTQ simplifies the post-training quantization procedure into only two steps, and considers the effectiveness and efficiency simultaneously. Experimental results on various datasets across a suite of models ranging from millions to billions in different quantization bit-levels demonstrate that SEPTQ significantly outperforms other strong baselines, especially in low-bit quantization scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な性能を示しているが、計算と記憶のコストに制約されている。
生成品質を保ちながら、リソース制限されたデバイスに適合するようにモデルを圧縮するための効果的な技術である量子化は、量子化対応トレーニング(QAT)と後学習量子化(PTQ)の2つの主要な方法を含んでいる。
QATは追加の訓練や微調整を伴い、必然的に訓練コストが高くなり、LLMには適さない。
その結果、PTQは最近の量子化法の研究ホットスポットとなった。
しかし、既存のPTQ法は通常、様々な複雑な計算手順に依存しており、低ビット量子化設定下ではかなりの性能劣化に悩まされている。
上記の問題を緩和するために,SEPTQ という名称の LLM のための簡易かつ効果的なポストトレーニング量子化パラダイムを提案する。
具体的には、SEPTQはまず重み行列の各要素の重要度を計算し、静的なグローバルな方法で量子化位置を決定する。
次に、重要な位置を表すマスク行列を用いて、適切な量化重量行列が得られるまで、関連する重みを列ごとに定量化し、更新する。
従来の方法と比較すると、SEPTQはトレーニング後の量子化手順を2段階に単純化し、有効性と効率を同時に考慮している。
特に低ビット量子化シナリオにおいて、SEPTQが他の強力なベースラインを著しく上回ることを示す。
関連論文リスト
- Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - NeUQI: Near-Optimal Uniform Quantization Parameter Initialization [41.08779476737888]
大規模言語モデル(LLM)のトレーニング後の量子化は、メモリフットプリントを削減し、遅延をデコードする有望なソリューションを提供する。
最近の$geq 2$-bit均一量子化の研究は、ポスト量子化モデルの性能に顕著な改善をもたらした。
均一量子化のための近似初期パラメータを効率的に決定する手法NeUQIを提案する。
論文 参考訳(メタデータ) (2025-05-23T07:59:46Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。