論文の概要: Adaptive Block-Scaled Data Types
- arxiv url: http://arxiv.org/abs/2603.28765v1
- Date: Mon, 30 Mar 2026 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.561328
- Title: Adaptive Block-Scaled Data Types
- Title(参考訳): Adaptive Block-Scaled Data Types
- Authors: Jack Cook, Hyemin S. Lee, Kathryn Le, Junxian Guo, Giovanni Traverso, Anantha P. Chandrakasan, Song Han,
- Abstract要約: NVFP4はその誤差分布に悩まされ、ほぼ最大値上の大量の量子化誤差をもたらす。
入力値の分布に適応できる新しい適応ブロックスケールデータ型を設計する。
IF4は、既存の4ビットのブロックスケールフォーマットより優れており、量子化トレーニング中に損失が小さくなり、トレーニング後の量子化において多くのタスクにおいて高い精度を達成する。
- 参考スコア(独自算出の注目度): 7.634741713346681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NVFP4 has grown increasingly popular as a 4-bit format for quantizing large language models due to its hardware support and its ability to retain useful information with relatively few bits per parameter. However, the format is not without limitations: recent work has shown that NVFP4 suffers from its error distribution, resulting in large amounts of quantization error on near-maximal values in each group of 16 values. In this work, we leverage this insight to design new Adaptive Block-Scaled Data Types that can adapt to the distribution of their input values. For four-bit quantization, our proposed IF4 (Int/Float 4) data type selects between FP4 and INT4 representations for each group of 16 values, which are then scaled by an E4M3 scale factor as is done with NVFP4. The selected data type is denoted using the scale factor's sign bit, which is currently unused in NVFP4, and we apply the same insight to design formats for other bit-widths, including IF3 and IF6. When used to quantize language models, we find that IF4 outperforms existing 4-bit block-scaled formats, achieving lower loss during quantized training and achieving higher accuracy on many tasks in post-training quantization. We additionally design and evaluate an IF4 Multiply-Accumulate (MAC) unit to demonstrate that IF4 can be implemented efficiently in next-generation hardware accelerators. Our code is available at https://github.com/mit-han-lab/fouroversix.
- Abstract(参考訳): NVFP4は、ハードウェアサポートと、パラメータ毎に比較的少数のビットで有用な情報を保持する能力により、大規模言語モデルの定量化のための4ビットフォーマットとして人気が高まっている。
しかし、この形式には制限がない:最近の研究により、NVFP4はその誤差分布に苦しむことが示され、その結果、16の値からなる各グループのほぼ最大値に対する大量の量子化誤差が生じる。
本研究では、この知見を利用して、入力値の分布に適応できる新しい適応ブロックスケールデータ型を設計する。
4ビット量子化において,提案したIF4(Int/Float 4)データ型は16個の値のそれぞれに対してFP4とINT4の表現を選択し,それをE4M3スケールファクタでスケールする。
選択したデータ型は、現在NVFP4で使われていないスケールファクタの符号ビットを用いて記述され、IF3やIF6を含む他のビット幅のフォーマットに同じ知見を適用する。
言語モデルの量子化に使用する場合、IF4は既存の4ビットブロックスケールフォーマットよりも優れており、量子化トレーニング中に損失が小さくなり、訓練後の量子化において多くのタスクにおいて高い精度を達成する。
さらに,次世代ハードウェアアクセラレータにおいて,IF4 が効率的に実装可能であることを示すために,IF4 Multiply-Accumulate (MAC) ユニットを設計・評価する。
私たちのコードはhttps://github.com/mit-han-lab/fouroversix.comで公開されています。
関連論文リスト
- HiFloat4 Format for Language Model Inference [25.863121704892734]
本稿では,ディープラーニングに適したブロック浮動小数点データフォーマットHiFloat4(HiF4)を紹介する。
各HiF4ユニットは64の4ビット要素を32ビットの共有スケーリングメタデータでパックし、平均4.5ビット/値である。
その結果、HiF4は複数のモデルと様々な下流タスクにまたがる最先端のNVFP4フォーマットよりも高い平均精度が得られることがわかった。
論文 参考訳(メタデータ) (2026-02-11T19:07:36Z) - Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Integer or Floating Point? New Outlooks for Low-Bit Quantization on
Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。
低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。
本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:28:37Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。