論文の概要: HiFloat4 Format for Language Model Inference
- arxiv url: http://arxiv.org/abs/2602.11287v2
- Date: Fri, 13 Feb 2026 05:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 15:25:03.33385
- Title: HiFloat4 Format for Language Model Inference
- Title(参考訳): 言語モデル推論のためのHiFloat4フォーマット
- Authors: Yuanyong Luo, Jing Huang, Yu Cheng, Ziwei Yu, Kaihua Tang, Xinda Ma, Xin Wang, Anping Tong, Guipeng Hu, Yun Xu, Mehran Taghian, Peng Wu, Guanglin Li, Yunke Peng, Tianchi Hu, Minqi Chen, Michael Bi Mi, Hu Liu, Xiping Zhou, Junsong Wang, Qiang Lin, Heng Liao,
- Abstract要約: 本稿では,ディープラーニングに適したブロック浮動小数点データフォーマットHiFloat4(HiF4)を紹介する。
各HiF4ユニットは64の4ビット要素を32ビットの共有スケーリングメタデータでパックし、平均4.5ビット/値である。
その結果、HiF4は複数のモデルと様々な下流タスクにまたがる最先端のNVFP4フォーマットよりも高い平均精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 25.863121704892734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces HiFloat4 (HiF4), a block floating-point data format tailored for deep learning. Each HiF4 unit packs 64 4-bit elements with 32 bits of shared scaling metadata, averaging 4.5 bits per value. The metadata specifies a three-level scaling hierarchy, capturing inter- and intra-group dynamic range while improving the utilization of the representational space. In addition, the large 64-element group size enables matrix multiplications to be executed in a highly fixed-point manner, significantly reducing hardware area and power consumption. To evaluate the proposed format, we conducted inference experiments on several language models, including LLaMA, Qwen, Mistral, DeepSeek-V3.1 and LongCat. Results show that HiF4 achieves higher average accuracy than the state-of-the-art NVFP4 format across multiple models and diverse downstream tasks.
- Abstract(参考訳): 本稿では,ディープラーニングに適したブロック浮動小数点データフォーマットHiFloat4(HiF4)を紹介する。
各HiF4ユニットは64の4ビット要素を32ビットの共有スケーリングメタデータでパックし、平均4.5ビット/値である。
メタデータは3段階のスケーリング階層を定義し、グループ間およびグループ間ダイナミックレンジをキャプチャし、表現空間の利用を改善する。
さらに、64要素のグループサイズが大きいため、行列乗算を高い固定点方式で実行でき、ハードウェアの面積と消費電力を大幅に削減できる。
提案方式を評価するため,LLaMA,Qwen,Mistral,DeepSeek-V3.1,LongCatなどの言語モデルを用いた推論実験を行った。
その結果、HiF4は複数のモデルと様々な下流タスクにまたがる最先端のNVFP4フォーマットよりも高い平均精度が得られることがわかった。
関連論文リスト
- Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe [68.04078852416248]
MiniCPM-V 4.5は8Bパラメータモデルであり、高効率で高性能に設計されている。
本稿では,モデルアーキテクチャ,データストラテジー,トレーニング手法の3つの改良点を紹介する。
MiniCPM-V 4.5は30B以下のモデル間で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T19:41:48Z) - Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs [195.24565517943802]
我々はPhi-4-MiniとPhi-4-Multimodalを導入し、コンパクトだが高機能な言語とマルチモーダルモデルを提案する。
Phi-4-Miniは、高品質なウェブおよび合成データに基づいて訓練された3.8ビリオンパラメータ言語モデルである。
Phi-4-Multimodalは、テキスト、ビジョン、音声、音声の入力モーダルを単一のモデルに統合するマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-03T17:05:52Z) - ShareGPT4V: Improving Large Multi-Modal Models with Better Captions [81.95879920888716]
120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
論文 参考訳(メタデータ) (2023-11-21T18:58:11Z) - Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文 参考訳(メタデータ) (2023-09-26T00:58:36Z) - A Multi-dimensional Deep Structured State Space Approach to Speech
Enhancement Using Small-footprint Models [45.90759340302879]
我々は、時間(T)および時間周波数(TF)ドメインにおける複数のS4ベースのディープアーキテクチャを探索する。
提案されたTFドメインS4ベースのモデルのサイズは78.6%小さいが、PESQスコア3.15のデータ拡張で競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-01T04:19:57Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - EFloat: Entropy-coded Floating Point Format for Deep Learning [2.3204178451683264]
EFloatフォーマットは、平均指数フィールド幅を最小限に抑えるために、Huffman符号で頻繁な指数値を符号化する。
提案した符号化概念は、8ビットフロートを含む低精度フォーマットに有用かもしれない。
論文 参考訳(メタデータ) (2021-02-04T15:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。