論文の概要: A Comprehensive Evaluation on Quantization Techniques for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.17417v2
- Date: Mon, 13 Oct 2025 00:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.031462
- Title: A Comprehensive Evaluation on Quantization Techniques for Large Language Models
- Title(参考訳): 大規模言語モデルの量子化手法に関する総合的評価
- Authors: Yutong Liu, Cairong Zhao, Guosheng Hu,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)のメモリフットプリントと計算オーバーヘッドを大幅に削減する。
我々は、最先端の手法を幅広く検討し、同じ条件下で総合的な評価を行い、公正な比較を行う。
最新のMXFP4およびNVFP4データフォーマットとその性能評価を行った。
- 参考スコア(独自算出の注目度): 46.75040730001041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For large language models (LLMs), post-training quantization (PTQ) can significantly reduce memory footprint and computational overhead. Model quantization is rapidly evolving. Though many papers report breakthrough results, they are often evaluated under different settings because a method typically contains multiple components. Analyzing connections among existing methods is important for deeper understanding. To bridge these gaps, we conduct an extensive review of state-of-the-art methods and perform comprehensive evaluations under the same conditions for fair comparison. To our knowledge, such a fair and extensive investigation remains critically underexplored. To better understand connections, first, we decouple published quantization methods into two steps: pre-quantization transformation and quantization error mitigation. The former is a preprocessing step that reduces outlier impact by flattening the data distribution; the latter offsets quantization errors to improve performance. Second, we evaluate and analyze the impact of different settings, including granularity and symmetry. Third, we analyze and evaluate the latest MXFP4 and NVFP4 data formats and their performance. Our experiments first demonstrate that optimized rotation and scaling yield the best pre-quantization performance, and that combining low-rank compensation with GPTQ can occasionally outperform GPTQ alone for error mitigation. Second, finer granularity improves performance but increases storage overhead. Third, we find that scaling-factor format and precision greatly affect FP4 performance, and that rotation-based strategies effective for INT4 offer limited gains for MXFP4 and NVFP4, motivating further study.
- Abstract(参考訳): 大規模言語モデル(LLM)では、後トレーニング量子化(PTQ)はメモリフットプリントと計算オーバーヘッドを大幅に削減する。
モデル量子化は急速に進化している。
多くの論文でブレークスルーの結果が報告されているが、通常、メソッドには複数のコンポーネントが含まれているため、異なる設定で評価されることが多い。
既存の手法間の接続を分析することは、より深く理解するために重要である。
これらのギャップを埋めるために、我々は最先端の手法を幅広く検討し、同じ条件下で総合的な評価を行い、公正に比較する。
我々の知る限り、このような公平で広範な調査はいまだに過小評価されている。
まず、接続をよりよく理解するために、発行された量子化法を、前量子化変換と量子化誤差軽減という2つのステップに分割する。
前者はデータ分散をフラット化することでアウトラヤの影響を低減する前処理ステップであり、後者は量子化エラーをオフセットしてパフォーマンスを向上させる。
第2に、粒度や対称性など、異なる設定の影響を評価し、分析する。
第3に、最新のMXFP4およびNVFP4データフォーマットとその性能を分析し、評価する。
我々の実験は、最適化された回転とスケーリングが最適な事前量子化性能をもたらすことを示し、低ランクの補償とGPTQの組み合わせは、エラー軽減のため、時折GPTQよりも優れていることを示した。
第二に、きめ細かい粒度はパフォーマンスを向上するが、ストレージオーバーヘッドを増大させる。
第3に、スケールファクタフォーマットと精度がFP4の性能に大きな影響を与え、また、INT4に有効な回転ベースの戦略はMXFP4とNVFP4に限られた利得を与え、さらなる研究を動機付けている。
関連論文リスト
- FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning [14.145862114439831]
モデル量子化はウェイトとアクティベーションのビット幅を減らし、メモリ効率と推論速度を改善する。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
本稿では、まずモデル量子化に符号なしFP量子化を導入し、時間ステップ対応のLoRAとデノナイジング・ファクター損失アライメントを併用する混合符号浮動小数点量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:40:47Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques [0.0]
量子化はモデルサイズを最大68%削減できる。
Int8量子化は計算コストと消費電力を40%削減する。
Int4量子化はこれらの指標をさらに60%改善する。
論文 参考訳(メタデータ) (2024-11-09T06:30:13Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - FedDQ: Communication-Efficient Federated Learning with Descending
Quantization [5.881154276623056]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のための分散ラーニングスキームである。
FLは、大きなモデルサイズと頻繁なモデルアグリゲーションによって、重要な通信ボトルネックに悩まされる。
本稿では適応的な量子化を行うための反対のアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-05T18:56:28Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。