論文の概要: Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats
- arxiv url: http://arxiv.org/abs/2602.12635v1
- Date: Fri, 13 Feb 2026 05:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.858078
- Title: Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats
- Title(参考訳): Ascend NPU の低ビット推論: HiFloat フォーマットの総合評価
- Authors: Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong,
- Abstract要約: Ascend NPUに適したフォーマットであるHiFloat(HiF8とHiF4)を評価した。
HiFloatは、最先端のポストトレーニング量子化フレームワークと完全に互換性がある。
- 参考スコア(独自算出の注目度): 42.6259787270868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs scale, low-bit floating-point formats like MXFP and NVFP4 offer new opportunities for precision and efficiency. In this work, we evaluate HiFloat (HiF8 and HiF4), a family of formats tailored for Ascend NPUs. Through rigorous comparison across weight-activation and KV-cache tasks, we provide three key insights: (1) INT8 suits narrow-range data, while floating-point formats excel with high-variance data; (2) in 4-bit regimes, HiF4's hierarchical scaling prevents the accuracy collapse seen in integer formats; and (3) HiFloat is fully compatible with state-of-the-art post-training quantization frameworks. Overall, HiFloat provides a solution for high-efficiency LLM inference on NPUs.
- Abstract(参考訳): LLMがスケールするにつれて、MXFPやNVFP4のような低ビット浮動小数点のフォーマットは、精度と効率の新たな機会を提供する。
本研究では,HiFloat(HiF8とHiF4)をAscend NPU用にカスタマイズしたフォーマット群として評価する。
ウェイトアクティベーションとKVキャッシュタスクの厳密な比較を通じて、(1)INT8は狭い範囲のデータに適合する一方、浮動小数点形式は高分散データに優れ、(2)HiF4の階層的スケーリングは整数形式で見られる精度の崩壊を防止し、(3)HiFloatは最先端のポストトレーニング量子化フレームワークと完全に互換性がある。
全体として、HiFloatは、NPU上での高効率LLM推論のためのソリューションを提供する。
関連論文リスト
- HiFloat4 Format for Language Model Inference [25.863121704892734]
本稿では,ディープラーニングに適したブロック浮動小数点データフォーマットHiFloat4(HiF4)を紹介する。
各HiF4ユニットは64の4ビット要素を32ビットの共有スケーリングメタデータでパックし、平均4.5ビット/値である。
その結果、HiF4は複数のモデルと様々な下流タスクにまたがる最先端のNVFP4フォーマットよりも高い平均精度が得られることがわかった。
論文 参考訳(メタデータ) (2026-02-11T19:07:36Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - EFloat: Entropy-coded Floating Point Format for Deep Learning [2.3204178451683264]
EFloatフォーマットは、平均指数フィールド幅を最小限に抑えるために、Huffman符号で頻繁な指数値を符号化する。
提案した符号化概念は、8ビットフロートを含む低精度フォーマットに有用かもしれない。
論文 参考訳(メタデータ) (2021-02-04T15:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。