論文の概要: Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations
- arxiv url: http://arxiv.org/abs/2505.06653v1
- Date: Sat, 10 May 2025 14:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.968716
- Title: Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations
- Title(参考訳): 4ビットブロック幅最適フロート(BOF4)によるブロック幅LDM量子化の改善 : 解析と変動
- Authors: Patrick Blumenberg, Thomas Graave, Tim Fingscheidt,
- Abstract要約: 大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。
既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。
これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 22.127873567034825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demand extensive memory capacity during both fine-tuning and inference. To enable memory-efficient fine-tuning, existing methods apply block-wise quantization techniques, such as NF4 and AF4, to the network weights. We show that these quantization techniques incur suboptimal quantization errors. Therefore, as a first novelty, we propose an optimization approach for block-wise quantization. Using this method, we design a family of quantizers named 4-bit block-wise optimal float (BOF4), which consistently reduces the quantization error compared to both baseline methods. We provide both a theoretical and a data-driven solution for the optimization process and prove their practical equivalence. Secondly, we propose a modification to the employed normalization method based on the signed absolute block maximum (BOF4-S), enabling further reduction of the quantization error and empirically achieving less degradation in language modeling performance. Thirdly, we explore additional variations of block-wise quantization methods applied to LLMs through an experimental study on the importance of accurately representing zero and large-amplitude weights on the one hand, and optimization towards various error metrics on the other hand. Lastly, we introduce a mixed-precision quantization strategy dubbed outlier-preserving quantization (OPQ) to address the distributional mismatch induced by outlier weights in block-wise quantization. By storing outlier weights in 16-bit precision (OPQ) while applying BOF4-S, we achieve top performance among 4-bit block-wise quantization techniques w.r.t. perplexity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。
メモリ効率の良い微調整を可能にするため、既存の手法ではネットワーク重みにブロックワイド量子化技術(NF4やAF4)を適用している。
これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
そこで本研究では,ブロックワイド量子化のための最適化手法を提案する。
この手法を用いて、4ビットブロックワイド最適フロート(BOF4)と呼ばれる量子化器群を設計する。
我々は、最適化プロセスの理論的およびデータ駆動のソリューションを提供し、それらの実用的等価性を証明する。
次に,符号付き絶対ブロック最大値(BOF4-S)に基づく正規化手法の修正を提案し,量子化誤差をさらに低減し,言語モデリング性能の低下を実証的に実現した。
第3に, LLMに適用されたブロックワイド量子化手法のさらなるバリエーションについて, 一方のゼロおよび大振幅重みを正確に表現することの重要性を実験的に検討し, 一方の誤差指標に対する最適化について検討する。
最後に、ブロックワイド量子化において、外乱重みによる分布ミスマッチに対処するため、外乱保存量子化(OPQ)と呼ばれる混合精度量子化戦略を導入する。
BOF4-Sを適用して16ビットの精度(OPQ)で外乱重みを格納することにより、4ビットのブロックワイド量子化技術において最大性能を実現する。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。
提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference [8.136601122570347]
後学習量子化(PTQ)は、より大きな言語モデル(LLM)のストレージと計算要求を、追加のトレーニングコストなしで削減するための有望なアプローチである。
最近のPTQ研究は、主に8ビット以上の活性化を維持しながら、重量のみを8ビット未満に定量化することに焦点を当てている。
論文 参考訳(メタデータ) (2025-02-07T23:06:03Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - NF4 Isn't Information Theoretically Optimal (and that's Good) [0.38073142980733]
私は、量子化すべき値の分布がブロックサイズに依存するため、このことはありえないことを示しています。
私はこれらの洞察を応用して、Quantileベースの手法ではなく、期待されるL1再構成エラーを最小限に抑え、改善されたコードを導出しようと試みます。
論文 参考訳(メタデータ) (2023-06-12T08:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。