論文の概要: Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats
- arxiv url: http://arxiv.org/abs/2602.12635v1
- Date: Fri, 13 Feb 2026 05:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.858078
- Title: Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats
- Title(参考訳): Ascend NPU の低ビット推論: HiFloat フォーマットの総合評価
- Authors: Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong,
- Abstract要約: Ascend NPUに適したフォーマットであるHiFloat(HiF8とHiF4)を評価した。
HiFloatは、最先端のポストトレーニング量子化フレームワークと完全に互換性がある。
- 参考スコア(独自算出の注目度): 42.6259787270868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs scale, low-bit floating-point formats like MXFP and NVFP4 offer new opportunities for precision and efficiency. In this work, we evaluate HiFloat (HiF8 and HiF4), a family of formats tailored for Ascend NPUs. Through rigorous comparison across weight-activation and KV-cache tasks, we provide three key insights: (1) INT8 suits narrow-range data, while floating-point formats excel with high-variance data; (2) in 4-bit regimes, HiF4's hierarchical scaling prevents the accuracy collapse seen in integer formats; and (3) HiFloat is fully compatible with state-of-the-art post-training quantization frameworks. Overall, HiFloat provides a solution for high-efficiency LLM inference on NPUs.
- Abstract(参考訳): LLMがスケールするにつれて、MXFPやNVFP4のような低ビット浮動小数点のフォーマットは、精度と効率の新たな機会を提供する。
本研究では,HiFloat(HiF8とHiF4)をAscend NPU用にカスタマイズしたフォーマット群として評価する。
ウェイトアクティベーションとKVキャッシュタスクの厳密な比較を通じて、(1)INT8は狭い範囲のデータに適合する一方、浮動小数点形式は高分散データに優れ、(2)HiF4の階層的スケーリングは整数形式で見られる精度の崩壊を防止し、(3)HiFloatは最先端のポストトレーニング量子化フレームワークと完全に互換性がある。
全体として、HiFloatは、NPU上での高効率LLM推論のためのソリューションを提供する。
関連論文リスト
- HiFloat4 Format for Language Model Inference [25.863121704892734]
本稿では,ディープラーニングに適したブロック浮動小数点データフォーマットHiFloat4(HiF4)を紹介する。
各HiF4ユニットは64の4ビット要素を32ビットの共有スケーリングメタデータでパックし、平均4.5ビット/値である。
その結果、HiF4は複数のモデルと様々な下流タスクにまたがる最先端のNVFP4フォーマットよりも高い平均精度が得られることがわかった。
論文 参考訳(メタデータ) (2026-02-11T19:07:36Z) - Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - EFloat: Entropy-coded Floating Point Format for Deep Learning [2.3204178451683264]
EFloatフォーマットは、平均指数フィールド幅を最小限に抑えるために、Huffman符号で頻繁な指数値を符号化する。
提案した符号化概念は、8ビットフロートを含む低精度フォーマットに有用かもしれない。
論文 参考訳(メタデータ) (2021-02-04T15:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。