論文の概要: Grid Games: The Power of Multiple Grids for Quantizing Large Language Models
- arxiv url: http://arxiv.org/abs/2605.12327v1
- Date: Tue, 12 May 2026 16:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.997792
- Title: Grid Games: The Power of Multiple Grids for Quantizing Large Language Models
- Title(参考訳): グリッドゲーム: 大規模言語モデルの量子化のための複数のグリッドのパワー
- Authors: Vage Egiazarian, Erik Schultheis, Andrei Panferov, Earl Killian, Torsten Hoefler, Dan Alistarh,
- Abstract要約: 量子化の最近の大きな進歩は、NVFP4 や MXFP4 のようなマイクロスケールの4ビットフォーマットによって与えられ、値をスケールを共有する小さなグループに量子化する。
パワー・オブ・ツー・グライド(PO2)問題を定式化し、MXFPやNVFPのような実用的な小群フォーマットがPO2グリッドの恩恵を受けることを示す理論的結果を提供する。
Llama-like モデルの標準開模型のポストトレーニング量子化と事前学習の結果は、重みのみおよび重み+アクティベーションの両方の下で、適応格子が単一グリッド FP4 に対して常に精度を向上することを示している。
- 参考スコア(独自算出の注目度): 50.885349461958384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major recent advance in quantization is given by microscaled 4-bit formats such as NVFP4 and MXFP4, quantizing values into small groups sharing a scale, assuming a fixed floating-point grid. In this paper, we study the following natural extension: assume that, for each group of values, we are free to select the "better" among two or more 4-bit grids marked by one or more bits in the scale value. We formalize the power-of-two-grids (PO2) problem, and provide theoretical results showing that practical small-group formats such as MXFP or NVFP can benefit significantly from PO2 grids, while the advantage vanishes for very large groups. On the practical side, we instantiate several grid families, including 1) PO2(NF4), which pairs the standard NF4 normal grid with a learned grid, 2) MPO2, a grid pair that is fully learned over real weights and activations, 3) PO2(Split87), an explicit-zero asymmetric grid and 4) SFP4, a TensorCore-implementable triple which pairs NVFP4 with two shifted variants. Results for post-training quantization of standard open models and pre-training of Llama-like models show that adaptive grids consistently improve accuracy vs single-grid FP4 under both weight-only and weight+activation. Source code is available at https://github.com/IST-DASLab/GridGames.
- Abstract(参考訳): 量子化の最近の大きな進歩は、NVFP4やMXFP4のようなマイクロスケールの4ビットフォーマットによって与えられ、固定浮動小数点格子を仮定して、値をスケールを共有する小さなグループに量子化する。
本稿では,各値群に対して,2つ以上の4ビットグリッドのうち1つ以上のビットが特徴付けられる「ベタ」を自由に選択できることを仮定する。
パワー・オブ・ツー・グライド(PO2)問題を定式化し、MXFPやNVFPのような実践的な小群形式がPO2グリッドの恩恵を受けられることを示す理論結果を提供する。
実用面では、いくつかのグリッドファミリーをインスタンス化する。
1PO2(NF4)は、標準のNF4正規グリッドと学習グリッドをペアリングする。
2)MPO2は、実際の重みとアクティベーションについて完全に学習されるグリッドペアである。
3)PO2(Split87)、明示的ゼロ非対称格子、および
4) SFP4はTensorCoreで実装可能なトリプルで、NVFP4と2つのシフト変種をペアリングする。
Llama-like モデルの標準開模型のポストトレーニング量子化と事前学習の結果は、重みのみおよび重み+アクティベーションの両方の下で、適応格子が単一グリッド FP4 に対して常に精度を向上することを示している。
ソースコードはhttps://github.com/IST-DASLab/GridGames.comで入手できる。
関連論文リスト
- Adaptive Block-Scaled Data Types [7.634741713346681]
NVFP4はその誤差分布に悩まされ、ほぼ最大値上の大量の量子化誤差をもたらす。
入力値の分布に適応できる新しい適応ブロックスケールデータ型を設計する。
IF4は、既存の4ビットのブロックスケールフォーマットより優れており、量子化トレーニング中に損失が小さくなり、トレーニング後の量子化において多くのタスクにおいて高い精度を達成する。
論文 参考訳(メタデータ) (2026-03-30T17:59:33Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。