Fugu-MT 論文翻訳(概要): Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations

論文の概要: Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations

arxiv url: http://arxiv.org/abs/2505.06653v1
Date: Sat, 10 May 2025 14:00:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.968716
Title: Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations
Title（参考訳）: 4ビットブロック幅最適フロート(BOF4)によるブロック幅LDM量子化の改善 : 解析と変動
Authors: Patrick Blumenberg, Thomas Graave, Tim Fingscheidt,
Abstract要約: 大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
参考スコア（独自算出の注目度）: 22.127873567034825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) demand extensive memory capacity during both fine-tuning and inference. To enable memory-efficient fine-tuning, existing methods apply block-wise quantization techniques, such as NF4 and AF4, to the network weights. We show that these quantization techniques incur suboptimal quantization errors. Therefore, as a first novelty, we propose an optimization approach for block-wise quantization. Using this method, we design a family of quantizers named 4-bit block-wise optimal float (BOF4), which consistently reduces the quantization error compared to both baseline methods. We provide both a theoretical and a data-driven solution for the optimization process and prove their practical equivalence. Secondly, we propose a modification to the employed normalization method based on the signed absolute block maximum (BOF4-S), enabling further reduction of the quantization error and empirically achieving less degradation in language modeling performance. Thirdly, we explore additional variations of block-wise quantization methods applied to LLMs through an experimental study on the importance of accurately representing zero and large-amplitude weights on the one hand, and optimization towards various error metrics on the other hand. Lastly, we introduce a mixed-precision quantization strategy dubbed outlier-preserving quantization (OPQ) to address the distributional mismatch induced by outlier weights in block-wise quantization. By storing outlier weights in 16-bit precision (OPQ) while applying BOF4-S, we achieve top performance among 4-bit block-wise quantization techniques w.r.t. perplexity.
Abstract（参考訳）: 大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。メモリ効率の良い微調整を可能にするため、既存の手法ではネットワーク重みにブロックワイド量子化技術(NF4やAF4)を適用している。これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。そこで本研究では,ブロックワイド量子化のための最適化手法を提案する。この手法を用いて、4ビットブロックワイド最適フロート(BOF4)と呼ばれる量子化器群を設計する。我々は、最適化プロセスの理論的およびデータ駆動のソリューションを提供し、それらの実用的等価性を証明する。次に,符号付き絶対ブロック最大値(BOF4-S)に基づく正規化手法の修正を提案し,量子化誤差をさらに低減し,言語モデリング性能の低下を実証的に実現した。第3に, LLMに適用されたブロックワイド量子化手法のさらなるバリエーションについて, 一方のゼロおよび大振幅重みを正確に表現することの重要性を実験的に検討し, 一方の誤差指標に対する最適化について検討する。最後に、ブロックワイド量子化において、外乱重みによる分布ミスマッチに対処するため、外乱保存量子化(OPQ)と呼ばれる混合精度量子化戦略を導入する。 BOF4-Sを適用して16ビットの精度(OPQ)で外乱重みを格納することにより、4ビットのブロックワイド量子化技術において最大性能を実現する。

関連論文リスト

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [18.645267970472936]
量子化ゼロ階最適化(Quantized Zeroth-order Optimization, QZO)は、連続量子化スケールを推定するために摂動させ、訓練を安定させるために方向微分クリッピング法を用いる新しい手法である。 QZOは4ビットLLMの合計メモリコストを18ドル以上削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
論文参考訳（メタデータ） (2025-05-19T17:55:15Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Achieving binary weight and activation for LLMs using Post-Training Quantization [32.247768389896144]
大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。
論文参考訳（メタデータ） (2025-04-07T04:50:04Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference [8.136601122570347]
後学習量子化(PTQ)は、より大きな言語モデル(LLM)のストレージと計算要求を、追加のトレーニングコストなしで削減するための有望なアプローチである。最近のPTQ研究は、主に8ビット以上の活性化を維持しながら、重量のみを8ビット未満に定量化することに焦点を当てている。
論文参考訳（メタデータ） (2025-02-07T23:06:03Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
NF4 Isn't Information Theoretically Optimal (and that's Good) [0.38073142980733]
私は、量子化すべき値の分布がブロックサイズに依存するため、このことはありえないことを示しています。私はこれらの洞察を応用して、Quantileベースの手法ではなく、期待されるL1再構成エラーを最小限に抑え、改善されたコードを導出しようと試みます。
論文参考訳（メタデータ） (2023-06-12T08:52:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。