論文の概要: BayesQ: Uncertainty-Guided Bayesian Quantization
- arxiv url: http://arxiv.org/abs/2511.08821v1
- Date: Thu, 13 Nov 2025 01:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.241376
- Title: BayesQ: Uncertainty-Guided Bayesian Quantization
- Title(参考訳): BayesQ: 不確実なガイド付きベイズ量子化
- Authors: Ismail Lamaakal, Chaymae Yahyati, Yassine Maleh, Khalid El Makkaoui, Ibrahim Ouahbi,
- Abstract要約: BayesQはトレーニング後の量子化フレームワークである。
後続の期待損失の下で量子化を最適化するのは、これが初めてである。
BayesQは低ビット量子化を不確実性を考慮したリスク最小化として再設定する。
- 参考スコア(独自算出の注目度): 1.565870461096057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BayesQ, an uncertainty-guided post-training quantization framework that is the first to optimize quantization under the posterior expected loss. BayesQ fits a lightweight Gaussian posterior over weights (diagonal Laplace by default; optional K-FAC/low-rank), whitens by the posterior covariance, designs codebooks to minimize posterior-expected distortion, and allocates mixed precision via a greedy knapsack that maximizes marginal expected-loss reduction per bit under a global budget. For scalar quantizers, posterior-expected MSE yields closed-form tables; task-aware proxies are handled by short Monte Carlo on a small calibration set. An optional calibration-only distillation aligns the quantized model with the posterior predictive teacher. At matched average bits/weight of 3.0/3.5/4.0, BayesQ improves over strong PTQ baselines on ResNet-50 (ImageNet) and BERT-base (GLUE) e.g., vs. GPTQ by $+1.5/+0.7/+0.3$ top-1 percentage points on RN50 and $+1.1/+0.4/+0.2$ GLUE points on BERT, while requiring one-time preprocessing comparable to a GPTQ pass. BayesQ reframes low-bit quantization as uncertainty-aware risk minimization in a practical, post-training pipeline.
- Abstract(参考訳): 我々は、後続の期待損失の下で量子化を最適化した最初の不確実性誘導後量子化フレームワークBayesQを提案する。
BayesQは軽量のガウス式後部重み(デフォルトの対角ラプラス、オプションのK-FAC/ローランク)に適合し、後部共分散によるホワイトン、後部予測歪みを最小限にするためにコードブックを設計し、大域的な予算の下で1ビット当たりの限界損失削減を最大化するフレディ・ナプサックを介して混合精度を割り当てる。
スカラー量子化器の場合、後述のMSEは閉形式のテーブルを出力し、タスク対応のプロキシは小さなキャリブレーションセット上の短いモンテカルロによって処理される。
任意のキャリブレーションのみの蒸留は、量子化されたモデルと後続の予測教師を一致させる。
一致した平均ビット/重み3.0/3.5/4.0では、BayesQはResNet-50(ImageNet)とBERT-base(GLUE)の強力なPTQベースラインよりも改善され、GPTQの$+1.5/+0.7/+$$ RN50と$+1.1/+0.4/+0.2$ GLUEポイントはGPTQパスに匹敵する1時間前処理を必要とする。
BayesQは、実践的で訓練後のパイプラインにおいて、低ビット量子化を不確実性を考慮したリスク最小化として再設定する。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。