論文の概要: Benford's Law as a Distributional Prior for Post-Training Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00165v1
- Date: Thu, 29 Jan 2026 22:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.020149
- Title: Benford's Law as a Distributional Prior for Post-Training Quantization of Large Language Models
- Title(参考訳): 大規模言語モデルの学習後量子化のための分布的前提としてのベンフォードの法則
- Authors: Arthur Negrão, Pedro Silva, Vander L. S. Freitas, Gladston Moreira, Eduardo Luz,
- Abstract要約: ベンフォード法則にインスパイアされた単純で非一様量子化器であるベンフォード量子化器を提案する。
Benford-Quantは、均一グリッドをログ空間のコードブックに置き換え、しばしば小さなマグニチュードの重みにさらなる解像度を捧げる。
以上の結果から,ベンフォードにインスパイアされた前兆を量子化格子に組み込むことは,攻撃的な数ビット状態において精度向上をもたらす低コストな修正であることが示された。
- 参考スコア(独自算出の注目度): 0.04262803491141496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of Large Language Models (LLMs) intensifies the need for effective compression, with weight quantization being the most widely adopted technique. Standard uniform quantizers assume that parameters are evenly distributed, an assumption at odds with the highly skewed distributions observed in practice. We propose Benford-Quant, a simple, data-free non-uniform quantizer inspired by Benford's Law, which predicts that leading digits follow a logarithmic distribution. Benford-Quant replaces the uniform grid with a log-spaced codebook, dedicating more resolution to the frequent small-magnitude weights. We provide both theoretical intuition and empirical evidence: (i) weights in transformer transformational layers adhere closely to Benford statistics, while normalization layers systematically deviate; (ii) on Small Language Models (SLMs), Benford-Quant consistently improves perplexity, reducing 4-bit perplexity on Gemma-270M by more than 10%; and (iii) on larger LLMs, it remains competitive, with differences explained by over-parameterization effects. Our results indicate that incorporating a Benford-inspired prior into quantization grids is a low-cost modification that yields accuracy gains in aggressive few-bit regimes. Although it is not able to surpass the state of the art in tasks such as perplexity and LAMBADA, the Benford-Quant approach can be hybridized with other quantization methods-such as SmoothQuant and Activation-Aware Quantization-without major pipeline modification, potentially improving their performance.
- Abstract(参考訳): LLM(Large Language Models)の急速な成長は、効果的な圧縮の必要性を高め、重量量子化が最も広く採用されているテクニックである。
標準均一量化器は、パラメータが等しく分布していると仮定するが、これは実際に観測された高度に歪んだ分布に反する仮定である。
我々はBenford-Quantを提案する。Benfordの法則にインスパイアされた単純でデータフリーな非一様量子化器で、先行桁が対数分布に従うことを予測している。
Benford-Quantは、均一グリッドをログ空間のコードブックに置き換え、しばしば小さなマグニチュードの重みにさらなる解像度を捧げる。
我々は、理論的直観と経験的証拠の両方を提供する。
i) 変圧器変換層における重みはベンフォード統計に密接に依存する一方、正規化層は体系的に逸脱する。
(ii)Small Language Models (SLM)において、Benford-Quantは一貫してパープレキシティを改善し、Gemma-270M上の4ビットパープレキシティを10%以上削減する。
3) LLMでは, オーバーパラメトリゼーション効果によって相違が説明され, 競争力は保たれている。
以上の結果から,ベンフォードにインスパイアされた前駆体を量子化格子に組み込むことは,攻撃的な数ビット状態において精度向上をもたらす低コストな修正であることが示された。
パープレキシティやLAMBADAといったタスクでは最先端を超えることはできないが、Benford-QuantアプローチはSmoothQuantやActivation-Aware Quantizationのような他の量子化手法とハイブリッド化することができる。
関連論文リスト
- AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models [4.373803477995854]
この研究は、拡散モデル圧縮の問題にコードブックベースの加算ベクトル量子化を適用する。
We report sFID 1.92 points lower than the full-precision model at W4A8 and the best-reported results for FID, sFID and ISC at W2A8。
また、効率的な推論カーネルを介して、任意のハードウェア上でFLOPの節約を実証することができる。
論文 参考訳(メタデータ) (2025-06-06T10:37:09Z) - Compression Scaling Laws:Unifying Sparsity and Quantization [65.05818215339498]
プレトレーニング中の大規模言語モデル(LLM)のスケーリング挙動に異なる圧縮手法がどう影響するかを検討する。
重みのみの量子化は強力なパラメータ効率乗算器を実現する一方で、重みとアクティベーションの完全な量子化は低ビット幅でのリターンの低下を示す。
以上の結果から,異なる圧縮手法を共通のスケーリング法枠組みの下で統一できることが示唆された。
論文 参考訳(メタデータ) (2025-02-23T04:47:36Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。