論文の概要: Enhancing Post-Training Quantization via Future Activation Awareness
- arxiv url: http://arxiv.org/abs/2602.02538v1
- Date: Wed, 28 Jan 2026 12:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.914654
- Title: Enhancing Post-Training Quantization via Future Activation Awareness
- Title(参考訳): 将来のアクティベーション・アウェアネスによるトレーニング後の量子化の促進
- Authors: Zheqi Lv, Zhenxuan Fan, Qi Tian, Wenqiao Zhang, Yueting Zhuang,
- Abstract要約: ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を微調整なしで圧縮する方法として広く用いられている。
本稿では、将来の層活性化を利用して量子化を導出するFuture-Aware Quantization (FAQ)を提案する。
FAQは、後方パス、データ再構成、チューニングを必要とせず、無視できる余分なコストで、従来手法よりも一貫してパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 84.76726857601753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) is a widely used method to compress large language models (LLMs) without fine-tuning. It typically sets quantization hyperparameters (e.g., scaling factors) based on current-layer activations. Although this method is efficient, it suffers from quantization bias and error accumulation, resulting in suboptimal and unstable quantization, especially when the calibration data is biased. To overcome these issues, we propose Future-Aware Quantization (FAQ), which leverages future-layer activations to guide quantization. This allows better identification and preservation of important weights, while reducing sensitivity to calibration noise. We further introduce a window-wise preview mechanism to softly aggregate multiple future-layer activations, mitigating over-reliance on any single layer. To avoid expensive greedy search, we use a pre-searched configuration to minimize overhead. Experiments show that FAQ consistently outperforms prior methods with negligible extra cost, requiring no backward passes, data reconstruction, or tuning, making it well-suited for edge deployment.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を微調整なしで圧縮する方法として広く用いられている。
これは典型的には、現在の層活性化に基づいて量子化ハイパーパラメータ(例えばスケーリング因子)を設定する。
この方法は効率的であるが、量子化バイアスと誤差蓄積に悩まされ、特にキャリブレーションデータがバイアスを受けた場合、最適以下の量子化と不安定な量子化が生じる。
これらの課題を克服するために,将来の層活性化を利用して量子化を導出するFuture-Aware Quantization (FAQ)を提案する。
これにより、重要な重量の識別と保存が向上し、キャリブレーションノイズに対する感度が低下する。
さらに、ウィンドウワイズプレビュー機構を導入し、複数の将来の層活性化をソフトに集約し、任意の単層上での過度な信頼性を緩和する。
高価な欲求検索を避けるため、我々は事前検索された構成を用いてオーバーヘッドを最小限に抑える。
実験の結果、FAQは非許容の余分なコストで、後方パス、データ再構成、チューニングを必要とせず、従来手法よりも一貫してパフォーマンスが向上し、エッジデプロイメントに適していることが示されている。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - GranQ: Efficient Channel-wise Quantization via Vectorized Pre-Scaling for Zero-Shot QAT [2.510925330348642]
GranQは、効率的な事前スケーリング戦略を導入する新しいアクティベーション量子化フレームワークである。
CIFARとImageNetで、最先端のZSQメソッドを一貫して上回る。
提案手法は, CIFAR-100の3ビット設定において最大5.45%の精度を実現し, CIFAR-10の完全精度ベースラインを超えている。
論文 参考訳(メタデータ) (2025-03-24T04:44:21Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。