論文の概要: Finer is Better (with the Right Scaling)
- arxiv url: http://arxiv.org/abs/2605.08565v1
- Date: Fri, 08 May 2026 23:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.743162
- Title: Finer is Better (with the Right Scaling)
- Title(参考訳): フィナードは(適切なスケーリングで)改善される
- Authors: Clemens Schaefer, Gil Tabak,
- Abstract要約: 文献で最近特定されたパラドックスは、標準的なabs-maxスケーリングがブロックサイズが縮小するにつれて、実際にモデル品質を低下させることができることを示している。
この劣化は、FP4要素フォーマットの粗い上量子化ビンとうまく相互作用しない重み付きテンソル分布によって引き起こされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microscaling is a critical technique for preserving the quality of Large Language Models (LLMs) quantized to ultra-low precision formats. Intuitively, finer block sizes should yield lower quantization error; however, a paradox recently identified in the literature demonstrates that standard abs-max scaling can actually degrade model quality as block sizes shrink. In this work, we investigate the underlying mechanics of this phenomenon. We demonstrate that this degradation is not an inherent limitation of finer granularity, but is primarily driven by heavy-tailed tensor distributions interacting poorly with the coarse upper quantization bins of the FP4 element format. Specifically, we show that i) preventing the scaling factor from underflowing to zero mitigates localized errors, ii) targeted algorithmic interventions like the 4-over-6 methodology effectively correct the quantization geometry for large elements, and iii) a brute-force search establishes an optimal baseline, confirming that the theoretical Mean Squared Error (MSE) strictly improves with finer block sizes. Ultimately, our findings reveal a valuable interchangeability: applying the correct algorithmic recipe allows standard, hardware-compliant formats (like OCP E4M3) to match the performance of custom, wider-exponent formats (like UE5M3). We validate these results across several large language models, fully resolving the block size paradox and achieving robust downstream perplexity improvements.
- Abstract(参考訳): マイクロスケーリングは、超低精度のフォーマットに量子化された大規模言語モデル(LLM)の品質を維持するための重要な技術である。
直感的には、より微細なブロックサイズはより低い量子化誤差をもたらすが、文献で最近特定されたパラドックスは、ブロックサイズが小さくなるにつれて、標準のabs-maxスケーリングが実際にモデル品質を低下させることを示した。
本研究では,この現象の基盤となる力学について検討する。
この分解は、より微細な粒度の固有の制限ではなく、主にFP4要素形式の粗い上量子化ビンとうまく相互作用しない重み付きテンソル分布によって引き起こされる。
具体的には
一 スケーリング係数がゼロに下降することを防止することにより、局所的な誤りを軽減すること。
二 大規模元素の量子化幾何を効果的に補正する四対六法のようなアルゴリズムの介入
三 ブラトフォース探索により最適な基準線を確立し、理論上の平均正方形誤差(MSE)がより細いブロックサイズで厳密に改善されることを確認する。
正しいアルゴリズムのレシピを適用することで、標準のハードウェア準拠のフォーマット(OCP E4M3)が、カスタムでより広範なフォーマット(UE5M3)のパフォーマンスに匹敵する。
これらの結果は,ブロックサイズのパラドックスを完全に解決し,より堅牢なダウンストリームパープレキシティ向上を実現するために,複数の大規模言語モデルにまたがって検証する。
関連論文リスト
- Normalized Architectures are Natively 4-Bit [49.13186675123547]
重みと隠れ表現を単位超球面に制限するアーキテクチャであるnGPTは、本質的に低精度算術よりも堅牢である。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
論文 参考訳(メタデータ) (2026-05-07T11:54:07Z) - Is Finer Better? The Limits of Microscaling Formats in Large Language Models [6.978989632396424]
マイクロスケーリング量子化に伴う驚くべき挙動の出現を報告する。
ブロックサイズが所定の閾値以下になるにつれて、量子化モデルの出力は低下する。
本稿では,FP4マイクロスケーリングデータ型のスケールのためのハードウェアフレンドリな新しいフォーマットとして,FP8unsigned E5M3を提案する。
論文 参考訳(メタデータ) (2026-01-26T23:21:24Z) - Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations [22.127873567034825]
大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。
既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。
これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
論文 参考訳(メタデータ) (2025-05-10T14:00:15Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - NF4 Isn't Information Theoretically Optimal (and that's Good) [0.38073142980733]
私は、量子化すべき値の分布がブロックサイズに依存するため、このことはありえないことを示しています。
私はこれらの洞察を応用して、Quantileベースの手法ではなく、期待されるL1再構成エラーを最小限に抑え、改善されたコードを導出しようと試みます。
論文 参考訳(メタデータ) (2023-06-12T08:52:14Z) - Block Format Error Bounds and Optimal Block Size Selection [7.056118133284956]
ここで最も期待され、急速に進歩しているフロンティアの1つは、新しいデータフォーマットの作成である。
本稿では, 数値演算を用いた内部積の動的範囲, 数値的精度, 効率的なハードウェア実装の組み合わせにより, ブロック浮動小数点数値形式に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-11T14:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。