論文の概要: EFloat: Entropy-coded Floating Point Format for Deep Learning
- arxiv url: http://arxiv.org/abs/2102.02705v1
- Date: Thu, 4 Feb 2021 15:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:37:48.353955
- Title: EFloat: Entropy-coded Floating Point Format for Deep Learning
- Title(参考訳): EFloat: ディープラーニングのためのエントロピーコードフローティングポイントフォーマット
- Authors: Rajesh Bordawekar and Bulent Abali and Ming-Hung Chen
- Abstract要約: EFloatフォーマットは、平均指数フィールド幅を最小限に抑えるために、Huffman符号で頻繁な指数値を符号化する。
提案した符号化概念は、8ビットフロートを含む低精度フォーマットに有用かもしれない。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the EFloat floating-point number format with 4 to 6 additional
bits of precision and a wider exponent range than the existing floating point
(FP) formats of any width including FP32, BFloat16, IEEE-Half precision,
DLFloat, TensorFloat, and 8-bit floats. In a large class of deep learning
models we observe that FP exponent values tend to cluster around few unique
values which presents entropy encoding opportunities. The EFloat format encodes
frequent exponent values and signs with Huffman codes to minimize the average
exponent field width. Saved bits then become available to the mantissa
increasing the EFloat numeric precision on average by 4 to 6 bits compared to
other FP formats of equal width. The proposed encoding concept may be
beneficial to low-precision formats including 8-bit floats. Training deep
learning models with low precision arithmetic is challenging. EFloat, with its
increased precision may provide an opportunity for those tasks as well. We
currently use the EFloat format for compressing and saving memory used in large
NLP deep learning models. A potential hardware implementation for improving
PCIe and memory bandwidth limitations of AI accelerators is also discussed.
- Abstract(参考訳): FP32, BFloat16, IEEE-Half精度, DLFloat, TensorFloat, 8ビットフロートを含む任意の幅の既存の浮動小数点(FP)フォーマットよりも4~6ビットの精度と広い指数域を持つEFloat浮動小数点数形式について述べる。
ディープラーニングモデルの大規模なクラスでは、FP指数値がエントロピー符号化の機会を示すいくつかのユニークな値に集結する傾向にある。
EFloatフォーマットは、頻繁な指数値と符号をHuffmanコードでエンコードし、平均指数フィールド幅を最小限に抑えます。
保存ビットは、同じ幅の他のFPフォーマットと比較して平均4ビットから6ビットのEFloat数値精度を増大させる。
提案する符号化の概念は、8ビットフロートを含む低精度フォーマットに有用である。
低精度演算によるディープラーニングモデルのトレーニングは難しい。
EFloatの精度が向上すれば、これらのタスクにもチャンスが生まれるかもしれない。
我々は現在,大規模なNLPディープラーニングモデルで使用されるメモリの圧縮と保存にEFloatフォーマットを使用している。
AIアクセラレータのPCIeおよびメモリ帯域幅制限を改善するための潜在的なハードウェア実装も議論されている。
関連論文リスト
- Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Accuracy Booster: Enabling 4-bit Fixed-point Arithmetic for DNN Training [31.515532976570643]
算術密度を最大化しながら、トレーニング精度を維持するにはシングルレベルスケーリングが十分であることを示す。
本稿では,4ビットマンティッサをトレーニング中の算術演算の99%以上に使用する混合マンティッサHBFP手法であるAccuracy Boosterを提案する。
論文 参考訳(メタデータ) (2022-11-19T16:17:11Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - FP8 Quantization: The Power of the Exponent [19.179749424362686]
本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。
我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。
これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
論文 参考訳(メタデータ) (2022-08-19T09:03:00Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and
Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。
複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。
古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文 参考訳(メタデータ) (2021-04-15T09:37:23Z) - Representation range needs for 16-bit neural network training [2.2657486535885094]
浮動小数点演算では指数ビット数の変化に伴い精度と表現範囲のトレードオフが存在する。
我々は6ビットの指数と9ビットの明示的なマンティッサという1/6/9フォーマットを提案する。
1/6/9混合精度トレーニングは,非正規動作の性能低下を引き起こすハードウェア上でのトレーニングを高速化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T20:30:02Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。