Fugu-MT 論文翻訳(概要): EFloat: Entropy-coded Floating Point Format for Deep Learning

論文の概要: EFloat: Entropy-coded Floating Point Format for Deep Learning

arxiv url: http://arxiv.org/abs/2102.02705v1
Date: Thu, 4 Feb 2021 15:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 16:37:48.353955
Title: EFloat: Entropy-coded Floating Point Format for Deep Learning
Title（参考訳）: EFloat: ディープラーニングのためのエントロピーコードフローティングポイントフォーマット
Authors: Rajesh Bordawekar and Bulent Abali and Ming-Hung Chen
Abstract要約: EFloatフォーマットは、平均指数フィールド幅を最小限に抑えるために、Huffman符号で頻繁な指数値を符号化する。提案した符号化概念は、8ビットフロートを含む低精度フォーマットに有用かもしれない。
参考スコア（独自算出の注目度）: 2.3204178451683264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe the EFloat floating-point number format with 4 to 6 additional bits of precision and a wider exponent range than the existing floating point (FP) formats of any width including FP32, BFloat16, IEEE-Half precision, DLFloat, TensorFloat, and 8-bit floats. In a large class of deep learning models we observe that FP exponent values tend to cluster around few unique values which presents entropy encoding opportunities. The EFloat format encodes frequent exponent values and signs with Huffman codes to minimize the average exponent field width. Saved bits then become available to the mantissa increasing the EFloat numeric precision on average by 4 to 6 bits compared to other FP formats of equal width. The proposed encoding concept may be beneficial to low-precision formats including 8-bit floats. Training deep learning models with low precision arithmetic is challenging. EFloat, with its increased precision may provide an opportunity for those tasks as well. We currently use the EFloat format for compressing and saving memory used in large NLP deep learning models. A potential hardware implementation for improving PCIe and memory bandwidth limitations of AI accelerators is also discussed.
Abstract（参考訳）: FP32, BFloat16, IEEE-Half精度, DLFloat, TensorFloat, 8ビットフロートを含む任意の幅の既存の浮動小数点(FP)フォーマットよりも4～6ビットの精度と広い指数域を持つEFloat浮動小数点数形式について述べる。ディープラーニングモデルの大規模なクラスでは、FP指数値がエントロピー符号化の機会を示すいくつかのユニークな値に集結する傾向にある。 EFloatフォーマットは、頻繁な指数値と符号をHuffmanコードでエンコードし、平均指数フィールド幅を最小限に抑えます。保存ビットは、同じ幅の他のFPフォーマットと比較して平均4ビットから6ビットのEFloat数値精度を増大させる。提案する符号化の概念は、8ビットフロートを含む低精度フォーマットに有用である。低精度演算によるディープラーニングモデルのトレーニングは難しい。 EFloatの精度が向上すれば、これらのタスクにもチャンスが生まれるかもしれない。我々は現在,大規模なNLPディープラーニングモデルで使用されるメモリの圧縮と保存にEFloatフォーマットを使用している。 AIアクセラレータのPCIeおよびメモリ帯域幅制限を改善するための潜在的なハードウェア実装も議論されている。

関連論文リスト

Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
MGS: Markov Greedy Sums for Accurate Low-Bitwidth Floating-Point Accumulation [3.638431342539701]
MGS(Markov Greedy Sums)は、ニューラルネットワーク計算において、低ビット幅浮動小数点生成物の精度を改善するための新しいアプローチである。我々は,複数のニューラルネットワークの推測時間において8ビット浮動小数点誤差を最小限に抑えるアルゴリズムを設計,解析,実装する。
論文参考訳（メタデータ） (2025-04-12T04:19:03Z)
FoNE: Precise Single-Token Number Embeddings via Fourier Features [51.17846016593835]
本稿では,数値をFourierの特徴を持つ埋め込み空間にマッピングする新しい手法を提案する。 FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。 6桁の10進法では、FoNEはサブワードや桁の埋め込みよりも99%の精度を達成するために64$times$少ないデータを必要とする。 FoNEは、加算、減算、乗算の10万以上の試験例で100%精度を得る唯一の方法である。
論文参考訳（メタデータ） (2025-02-13T19:54:59Z)
Scaling Laws for Floating Point Quantization Training [47.174957621592775]
低精度トレーニングは、トレーニングと下流推論コストの削減に有効な戦略と考えられている。本稿では,浮動小数点量子化目標,指数ビット,マティーサビットの影響,および浮動小数点量子化訓練におけるスケーリング係数の算出について,徹底的に検討する。
論文参考訳（メタデータ） (2025-01-05T02:30:41Z)
Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文参考訳（メタデータ） (2023-11-21T05:27:16Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
Accuracy Booster: Enabling 4-bit Fixed-point Arithmetic for DNN Training [31.515532976570643]
算術密度を最大化しながら、トレーニング精度を維持するにはシングルレベルスケーリングが十分であることを示す。本稿では,4ビットマンティッサをトレーニング中の算術演算の99%以上に使用する混合マンティッサHBFP手法であるAccuracy Boosterを提案する。
論文参考訳（メタデータ） (2022-11-19T16:17:11Z)
FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。 E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。 16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文参考訳（メタデータ） (2022-09-12T17:39:55Z)
FP8 Quantization: The Power of the Exponent [19.179749424362686]
本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
論文参考訳（メタデータ） (2022-08-19T09:03:00Z)
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。 175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文参考訳（メタデータ） (2022-08-15T17:08:50Z)
All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文参考訳（メタデータ） (2021-04-15T09:37:23Z)
Representation range needs for 16-bit neural network training [2.2657486535885094]
浮動小数点演算では指数ビット数の変化に伴い精度と表現範囲のトレードオフが存在する。我々は6ビットの指数と9ビットの明示的なマンティッサという1/6/9フォーマットを提案する。 1/6/9混合精度トレーニングは,非正規動作の性能低下を引き起こすハードウェア上でのトレーニングを高速化できることを示す。
論文参考訳（メタデータ） (2021-03-29T20:30:02Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。