論文の概要: BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.04163v1
- Date: Wed, 04 Feb 2026 02:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.348571
- Title: BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models
- Title(参考訳): BPDQ:大規模言語モデルのための可変グリッド上でのビットプレーン分解量子化
- Authors: Junyu Chen, Jungang Li, Jing Xiong, Wenjie Wang, Qingyao Yang, He Xiao, Zhen Li, Taiqiang Wu, Mengzhao Chen, Zhen Peng, Chaofan Tao, Long Shi, Hongxia Yang, Ngai Wong,
- Abstract要約: 本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
- 参考スコア(独自算出の注目度): 56.504879072674015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) inference is often bounded by memory footprint and memory bandwidth in resource-constrained deployments, making quantization a fundamental technique for efficient serving. While post-training quantization (PTQ) maintains high fidelity at 4-bit, it deteriorates at 2-3 bits. Fundamentally, existing methods enforce a shape-invariant quantization grid (e.g., the fixed uniform intervals of UINT2) for each group, severely restricting the feasible set for error minimization. To address this, we propose Bit-Plane Decomposition Quantization (BPDQ), which constructs a variable quantization grid via bit-planes and scalar coefficients, and iteratively refines them using approximate second-order information while progressively compensating quantization errors to minimize output discrepancy. In the 2-bit regime, BPDQ enables serving Qwen2.5-72B on a single RTX 3090 with 83.85% GSM8K accuracy (vs. 90.83% at 16-bit). Moreover, we provide theoretical analysis showing that the variable grid expands the feasible set, and that the quantization process consistently aligns with the optimization objective in Hessian-induced geometry. Code: github.com/KingdalfGoodman/BPDQ.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、リソース制限されたデプロイメントにおいてメモリフットプリントとメモリ帯域幅によってバウンドされることが多く、量子化は効率的なサービスのための基本的な技術である。
後トレーニング量子化(PTQ)は4ビットで高い忠実性を維持するが、2~3ビットで劣化する。
基本的に、既存の手法は各群に対して形状不変量化格子(例えば、UINT2の固定均一区間)を強制し、誤り最小化の可能な集合を厳しく制限する。
そこで本研究では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案し,これを近似した2次情報を用いて逐次補正し,出力誤差を最小限に抑える。
2ビット方式では、BPDQは1つのRTX 3090上でQwen2.5-72Bを83.85%のGSM8K(vs. 90.83% at 16-bit)で提供することができる。
さらに、可変格子が実現可能な集合を拡張し、量子化過程がヘッセン幾何学の最適化目標と一貫して一致することを示す理論的解析を提供する。
コード:github.com/KingdalfGoodman/BPDQ
関連論文リスト
- Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration [21.474315621757594]
GPTAQは大規模トランスアーキテクチャを圧縮するための新しい微調整不要量子化法である。
各層を独立に校正する従来のGPTQ法とは異なり、我々は常に量子化層の出力と完全精度モデルの正確な出力とを一致させる。
GPTAQは実装が容易で、GPTQよりも20行のコードを使用するだけで、低ビット量子化下での性能を向上させることができる。
論文 参考訳(メタデータ) (2025-04-03T15:30:43Z) - MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration [23.752021919501207]
本稿では,チャネルごとの静的量子化フレームワークであるMergeQuantを提案する。
MergeQuantは、量子化ステップマイグレーション(QSM)メソッドを通じて、チャネルごとの量子化ステップと対応するスケーリングと線形マッピングを統合する。
Llama-2-7Bモデルでは、MergeQuantはFP16ベースラインと比較してデコードで最大1.77倍、エンドツーエンドで最大2.06倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-03-07T04:52:28Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。