論文の概要: Search Your Block Floating Point Scales!
- arxiv url: http://arxiv.org/abs/2605.12464v1
- Date: Tue, 12 May 2026 17:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.066975
- Title: Search Your Block Floating Point Scales!
- Title(参考訳): ブロック浮動小数点スケールを検索!
- Authors: Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa,
- Abstract要約: 量子化は生成モデルの推論を加速させる技術である。
最近GPUアクセラレーターは、マイクロスケーリングフォーマットのファーストクラスサポートを追加した。
本研究では,所定の分布の量子化誤差を最小限に抑えるために,スケール検索を提案する。
- 参考スコア(独自算出の注目度): 35.789942702223414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization has emerged as a standard technique for accelerating inference for generative models by enabling faster low-precision computations and reduced memory transfers. Recently, GPU accelerators have added first-class support for microscaling Block Floating Point (BFP) formats. Standard BFP algorithms use a fixed scale based on the maximum magnitude of the block. We observe that this scale choice can be suboptimal with respect to quantization errors. In this work, we propose ScaleSearch, an alternative strategy for selecting these scale factors: using a fine-grained search leveraging the mantissa bits in microscaling formats to minimize the quantization error for the given distribution. ScaleSearch can be integrated with existing quantization methods such as Post Training Quantization and low-precision attention, and is shown to improve their performance. Additionally, we introduce ScaleSearchAttention, an accelerated NVFP4-based attention algorithm, which uses ScaleSearch and adapted prior techniques to ensure near-0 performance loss for causal language modeling. Experiments show that ScaleSearch reduces quantization error by 27% for NVFP4 and improves language model PTQ by up to 15 points for MATH500 (Qwen3-8B), while ScaleSearchAttention improves Wikitext-2 PPL by upto 0.77 points for Llama 3.1 70B. The proposed methods closely match baseline performance while providing quantization accuracy improvements.
- Abstract(参考訳): 量子化は、高速な低精度計算とメモリ転送の削減を可能にして、生成モデルの推論を加速する標準技術として登場した。
最近、GPUアクセラレーターはBlock Floating Point(BFP)フォーマットをマイクロスケーリングするファーストクラスのサポートを追加した。
標準BFPアルゴリズムはブロックの最大等級に基づいて固定スケールを使用する。
我々は,このスケールの選択が量子化誤差に対して最適であることを示す。
本研究では,これらのスケール要因を選択するための代替戦略であるスケールサーチを提案する。マイクロスケーリングフォーマットのマティーサビットを利用したきめ細かい探索を用いて,与えられた分布の量子化誤差を最小化する。
ScaleSearchは、ポストトレーニング量子化(Post Training Quantization)や低精度アテンション(low-precision attention)といった既存の量子化手法と統合することができ、パフォーマンスの向上が示されている。
In addition, scaleSearchAttention, a accelerated NVFP4 based attention algorithm which using ScaleSearch and adapt pre techniques to ensure near-0 performance loss for causal language modeling。
実験によると、ScaleSearchはNVFP4の量子化エラーを27%削減し、MATH500(Qwen3-8B)の言語モデルPTQを最大15ポイント改善し、ScaleSearchAttentionはLlama 3.1 70Bの最大0.77ポイントまでWikitext-2 PPLを改善している。
提案手法は,量子化精度の向上を図りながら,ベースライン性能と密に一致している。
関連論文リスト
- SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization [19.022444007775896]
NVFP4は、最近、大規模言語モデルの効率的な4ビットマイクロスケーリングフォーマットとして登場した。
既存の方法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの併用による、最適以下の性能をもたらす。
NVFP4量子化の精度を向上する新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
論文 参考訳(メタデータ) (2026-05-12T15:13:18Z) - Quantization Range Estimation for Convolutional Neural Networks [12.047887178191134]
学習後量子化のための量子化性能を改善するための範囲推定法を提案する。
実験により,本手法は画像分類タスクにおいて,トップ1の精度で最先端の性能を向上することを示した。
論文 参考訳(メタデータ) (2025-10-05T05:35:12Z) - Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [21.0540879091664]
我々は、勾配推定のために連続量子化スケールを摂動する単純で効果的な方法である量子化ゼロ階最適化(QZO)を提案する。
QZOは4ビットLLMの合計メモリコストを18ドル以上削減でき、24GBのGPUでLlama-2-13Bを微調整できる。
論文 参考訳(メタデータ) (2025-05-19T17:55:15Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Multi-objective Recurrent Neural Networks Optimization for the Edge -- a
Quantization-based Approach [2.1987431057890467]
本稿では,Multi-Objective Hardware-Aware Quantization (MOHAQ)法を紹介する。
本研究では,検索空間内でのみ選択された解を学習し,ビーコンとして利用し,他の解に対する再学習の効果を知るための「ビーコンベース検索」という検索手法を提案する。
論文 参考訳(メタデータ) (2021-08-02T22:09:12Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。