論文の概要: FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization
- arxiv url: http://arxiv.org/abs/2601.11200v1
- Date: Fri, 16 Jan 2026 11:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.47016
- Title: FAQ: Mitigating Quantization Error via Regenerating Calibration Data with Family-Aware Quantization
- Title(参考訳): FAQ:ファミリーアウェア量子化による校正データの再生による量子化誤差の軽減
- Authors: Haiyang Xiao, Weiqing Li, Jinyue Guo, Guochao Jiang, Guohua Liu, Yuewei Zhang,
- Abstract要約: textbfFAQ(Family-Aware Quantization)は、キャリブレーションデータ再生フレームワークである。
高度に一貫した知識システムを用いて、一連の高忠実度校正データを再生する。
元のキャリブレーションデータによるベースラインと比較して、精度損失を最大28.5%削減する。
- 参考スコア(独自算出の注目度): 9.164335834135551
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although post-training quantization (PTQ) provides an efficient numerical compression scheme for deploying large language models (LLMs) on resource-constrained devices, the representativeness and universality of calibration data remain a core bottleneck in determining the accuracy of quantization parameters. Traditional PTQ methods typically rely on limited samples, making it difficult to capture the activation distribution during the inference phase, leading to biases in quantization parameters. To address this, we propose \textbf{FAQ} (Family-Aware Quantization), a calibration data regeneration framework that leverages prior knowledge from LLMs of the same family to generate high-fidelity calibration samples. Specifically, FAQ first inputs the original calibration samples into a larger LLM from the same family as the target model, regenerating a series of high-fidelity calibration data using a highly consistent knowledge system. Subsequently, this data, carrying Chain-of-Thought reasoning and conforming to the expected activation distribution, undergoes group competition under expert guidance to select the best samples, which are then re-normalized to enhance the effectiveness of standard PTQ. Experiments on multiple model series, including Qwen3-8B, show that FAQ reduces accuracy loss by up to 28.5\% compared to the baseline with original calibration data, demonstrating its powerful potential and contribution.
- Abstract(参考訳): 学習後量子化(PTQ)は、資源制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための効率的な数値圧縮スキームを提供するが、キャリブレーションデータの代表性と普遍性は、量子化パラメータの精度を決定する上で重要なボトルネックである。
従来のPTQ法は、典型的には限られたサンプルに依存しており、推論フェーズ中に活性化分布を捉えることは困難であり、量子化パラメータのバイアスをもたらす。
そこで本研究では,同じ家系のLCMからの事前知識を活用して高忠実度校正サンプルを生成する校正データ再生フレームワークである「textbf{FAQ} (Family-Aware Quantization)」を提案する。
具体的には、FAQは、まずターゲットモデルと同じファミリーから元のキャリブレーションサンプルをより大きなLCMに入力し、高度に一貫した知識システムを用いて一連の高忠実度キャリブレーションデータを再生する。
その後、このデータは、Chain-of-Thought推論を実行し、期待される活性化分布に適合し、専門家指導の下でグループコンペティションを行い、最適なサンプルを選択し、標準PTQの有効性を高めるために再正規化される。
Qwen3-8Bを含む複数のモデルシリーズの実験では、FAQは元のキャリブレーションデータによるベースラインと比較して精度損失を最大28.5 %削減し、その強力なポテンシャルと寄与を示す。
関連論文リスト
- Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Rethinking Post-Training Quantization: Introducing a Statistical Pre-Calibration Approach [22.25748046511075]
ポストトレーニング量子化(PTQ)技術は、精度を維持するためにキャリブレーションプロセスに依存する。
本稿では,キャリブレーションに基づくPTQ手法の先駆者と見なせる重み適応型PTQ法を提案する。
提案手法は,最も一般的なキャリブレーションに基づくPTQ法と同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2025-01-15T19:44:15Z) - TTAQ: Towards Stable Post-training Quantization in Continuous Domain Adaptation [3.7024647541541014]
トレーニング後の量子化(PTQ)は、完全な精度のモデルを小さなキャリブレーションセット上で低ビット表現に量子化することで、ハードウェアの過大なコストを削減する。
従来のPTQメソッドは、動的で絶え間なく変化する現実世界のシナリオで失敗することが多い。
本稿では、従来のPTQの性能劣化に対処するため、TTAQと呼ばれるテスト時間適応のための新しい安定な量子化プロセスを提案する。
論文 参考訳(メタデータ) (2024-12-13T06:34:59Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - Data Quality-aware Mixed-precision Quantization via Hybrid Reinforcement
Learning [22.31766292657812]
混合精度量子化は、実際のトレーニングの前に、主にモデルビット幅設定を事前に決定する。
DQMQと呼ばれる新しいデータ品質対応混合精度量子化フレームワークを提案し、異なるデータ品質に量子化ビット幅を動的に適応させる。
論文 参考訳(メタデータ) (2023-02-09T06:14:00Z) - Calibrate and Prune: Improving Reliability of Lottery Tickets Through
Prediction Calibration [40.203492372949576]
未確認の信頼を持つ監視されたモデルは、誤った予測をしたとしても過信される傾向がある。
パラメータの過剰なネットワークにおける明確な信頼度校正が、その結果の宝くじの品質に与える影響について検討する。
我々の実証研究は、キャリブレーション機構を含むと、より効果的な宝くじチケットにつながることを明らかにしている。
論文 参考訳(メタデータ) (2020-02-10T15:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。