論文の概要: A Comprehensive Evaluation on Quantization Techniques for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.17417v1
- Date: Wed, 23 Jul 2025 11:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.969997
- Title: A Comprehensive Evaluation on Quantization Techniques for Large Language Models
- Title(参考訳): 大規模言語モデルの量子化手法に関する総合的評価
- Authors: Yutong Liu, Cairong Zhao, Guosheng Hu,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)のメモリフットプリントと計算オーバーヘッドを大幅に削減する。
我々は、公表された量子化法を、前量子化変換と量子化誤差軽減の2つのステップに分解する。
我々は、量子化法における異なる成分の影響を評価し、分析する。
- 参考スコア(独自算出の注目度): 26.403640429212707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For large language models (LLMs), post-training quantization (PTQ) can significantly reduce memory footprint and computational overhead. Model quantization is a rapidly evolving research field. Though many papers have reported breakthrough performance, they may not conduct experiments on the same ground since one quantization method usually contains multiple components. In addition, analyzing the theoretical connections among existing methods is crucial for in-depth understanding. To bridge these gaps, we conduct an extensive review of state-of-the-art methods and perform comprehensive evaluations on the same ground to ensure fair comparisons. To our knowledge, this fair and extensive investigation remains critically important yet underexplored. To better understand the theoretical connections, we decouple the published quantization methods into two steps: pre-quantization transformation and quantization error mitigation. We define the former as a preprocessing step applied before quantization to reduce the impact of outliers, making the data distribution flatter and more suitable for quantization. Quantization error mitigation involves techniques that offset the errors introduced during quantization, thereby enhancing model performance. We evaluate and analyze the impact of different components of quantization methods. Additionally, we analyze and evaluate the latest MXFP4 data format and its performance. Our experimental results demonstrate that optimized rotation and scaling yield the best performance for pre-quantization transformation, and combining low-rank compensation with GPTQ occasionally outperforms using GPTQ alone for quantization error mitigation. Furthermore, we explore the potential of the latest MXFP4 quantization and reveal that the optimal pre-quantization transformation strategy for INT4 does not generalize well to MXFP4, inspiring further investigation.
- Abstract(参考訳): 大規模言語モデル(LLM)では、後トレーニング量子化(PTQ)はメモリフットプリントと計算オーバーヘッドを大幅に削減する。
モデル量子化は急速に発展する研究分野である。
多くの論文がブレークスルー性能を報告しているが、1つの量子化法は通常複数の成分を含むため、同じ地上で実験を行うことはできない。
さらに,既存手法間の理論的関係を解析することは,詳細な理解に不可欠である。
これらのギャップを埋めるために、我々は最先端の手法を広範囲にレビューし、同じ場所で総合的な評価を行い、公正な比較を確実にする。
我々の知る限りでは、この公正で広範囲な調査は依然として重要であり、未調査である。
理論的関係をよりよく理解するために、公表された量子化法を、前量子化変換と量子化誤差軽減という2つのステップに分離する。
我々は、前者を量子化の前に適用した前処理ステップとして定義し、外乱の影響を減らし、データ分布をよりフラットにし、量子化に適したものにする。
量子化エラー軽減には、量子化時に導入されたエラーをオフセットする技法が伴うため、モデルの性能が向上する。
我々は、量子化法における異なる成分の影響を評価し、分析する。
さらに、最新のMXFP4データフォーマットとその性能を分析し、評価する。
実験により、最適化された回転とスケーリングが事前量子化変換の最良の性能を示し、低ランクの補償をGPTQと組み合わせることで、時折GPTQのみを用いて量子化誤差の緩和を行う。
さらに, 最新のMXFP4量子化の可能性を探り, INT4の最適前量子化変換戦略がMXFP4とよく一致していないことを明らかにする。
関連論文リスト
- FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning [14.145862114439831]
モデル量子化はウェイトとアクティベーションのビット幅を減らし、メモリ効率と推論速度を改善する。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
本稿では、まずモデル量子化に符号なしFP量子化を導入し、時間ステップ対応のLoRAとデノナイジング・ファクター損失アライメントを併用する混合符号浮動小数点量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:40:47Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。
Int8量子化は計算コストと消費電力を40%削減する。
Int4量子化はこれらの指標をさらに60%改善する。
論文 参考訳(メタデータ) (2024-11-09T06:30:13Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - FedDQ: Communication-Efficient Federated Learning with Descending
Quantization [5.881154276623056]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のための分散ラーニングスキームである。
FLは、大きなモデルサイズと頻繁なモデルアグリゲーションによって、重要な通信ボトルネックに悩まされる。
本稿では適応的な量子化を行うための反対のアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-05T18:56:28Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。