論文の概要: Is Finer Better? The Limits of Microscaling Formats in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.19026v1
- Date: Mon, 26 Jan 2026 23:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.094332
- Title: Is Finer Better? The Limits of Microscaling Formats in Large Language Models
- Title(参考訳): ファイナリングは優れているか? 大規模言語モデルにおけるマイクロスケーリングフォーマットの限界
- Authors: Andrea Fasoli, Monodeep Kar, Chi-Chun Liu, Swagath Venkataramani, Viji Srinivasan, Leland Chang, Naigang Wang,
- Abstract要約: マイクロスケーリング量子化に伴う驚くべき挙動の出現を報告する。
ブロックサイズが所定の閾値以下になるにつれて、量子化モデルの出力は低下する。
本稿では,FP4マイクロスケーリングデータ型のスケールのためのハードウェアフレンドリな新しいフォーマットとして,FP8unsigned E5M3を提案する。
- 参考スコア(独自算出の注目度): 6.978989632396424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microscaling data formats leverage per-block tensor quantization to enable aggressive model compression with limited loss in accuracy. Unlocking their potential for efficient training and inference necessitates hardware-friendly implementations that handle matrix multiplications in a native format and adopt efficient error-mitigation strategies. Herein, we report the emergence of a surprising behavior associated with microscaling quantization, whereas the output of a quantized model degrades as block size is decreased below a given threshold. This behavior clashes with the expectation that a smaller block size should allow for a better representation of the tensor elements. We investigate this phenomenon both experimentally and theoretically, decoupling the sources of quantization error behind it. Experimentally, we analyze the distributions of several Large Language Models and identify the conditions driving the anomalous behavior. Theoretically, we lay down a framework showing remarkable agreement with experimental data from pretrained model distributions and ideal ones. Overall, we show that the anomaly is driven by the interplay between narrow tensor distributions and the limited dynamic range of the quantized scales. Based on these insights, we propose the use of FP8 unsigned E5M3 (UE5M3) as a novel hardware-friendly format for the scales in FP4 microscaling data types. We demonstrate that UE5M3 achieves comparable performance to the conventional FP8 unsigned E4M3 scales while obviating the need of global scaling operations on weights and activations.
- Abstract(参考訳): マイクロスケーリングデータフォーマットはブロック単位のテンソル量子化を利用して、精度の低下に制限されたアグレッシブなモデル圧縮を可能にする。
効率的なトレーニングと推論の可能性を解き放つには、ネイティブフォーマットで行列乗算を処理し、効率的なエラー軽減戦略を採用するハードウェアフレンドリーな実装が必要である。
本稿では、マイクロスケーリング量子化に伴う驚くべき挙動の出現を報告し、一方、ブロックサイズが所定の閾値以下になるにつれて、量子化モデルの出力は低下する。
この振る舞いは、より小さなブロックサイズでテンソル要素をよりよく表現できるという期待と衝突する。
我々はこの現象を実験的にも理論的にも検討し、その背後にある量子化誤差の源を分離する。
実験により,複数の大規模言語モデルの分布を解析し,異常な動作を誘発する条件を同定する。
理論的には、事前訓練されたモデル分布と理想的なデータからの実験データに顕著な一致を示すフレームワークを配置する。
全体として、この異常は、狭いテンソル分布と量子化スケールの限られたダイナミックレンジとの相互作用によって引き起こされることを示す。
これらの知見に基づき、FP4マイクロスケーリングデータ型のための新しいハードウェアフレンドリーなフォーマットとして、FP8unsigned E5M3(UE5M3)を提案する。
UE5M3は従来のFP8符号なしのE4M3スケールに匹敵する性能を示しながら、重量やアクティベーションに対するグローバルスケール操作の必要性を回避している。
関連論文リスト
- Approaching Maximal Information Extraction in Low-Signal Regimes via Multiple Instance Learning [0.0]
より正確な予測を得るために,機械学習(ML)手法を提案する。
提案手法では,データセットに潜伏する理論上の最大漁獲量の抽出が可能である可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-09T22:46:55Z) - Characterization and Mitigation of Training Instabilities in Microscaling Formats [6.025438902954768]
大規模言語モデルのトレーニングは、高価な計算処理です。
次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。
モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
論文 参考訳(メタデータ) (2025-06-25T18:25:08Z) - AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models [4.373803477995854]
この研究は、拡散モデル圧縮の問題にコードブックベースの加算ベクトル量子化を適用する。
We report sFID 1.92 points lower than the full-precision model at W4A8 and the best-reported results for FID, sFID and ISC at W2A8。
また、効率的な推論カーネルを介して、任意のハードウェア上でFLOPの節約を実証することができる。
論文 参考訳(メタデータ) (2025-06-06T10:37:09Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Error Diffusion: Post Training Quantization with Block-Scaled Number Formats for Neural Networks [1.042733720689638]
量子化は、データ移動、ストレージ、乗算や加算のような操作など、モデルのハードウェアコストを削減します。
ブロックスケールの数値形式のようなよりエキゾチックな数値エンコーディングは、固定ビット予算を利用してモデルパラメータをエンコードする利点を示している。
本稿では,ブロックスケールデータフォーマットをサポートするポストトレーニング量子化のための誤り拡散(ED)を提案する。
論文 参考訳(メタデータ) (2024-10-15T02:40:50Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。