Fugu-MT 論文翻訳(概要): All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks

論文の概要: All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks

arxiv url: http://arxiv.org/abs/2104.07329v1
Date: Thu, 15 Apr 2021 09:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-16 15:12:39.316581
Title: All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks
Title（参考訳）: 深部ニューラルネットワークの高精度・メモリ効率推論のためのオールユーカンフィット8ビットフレキシブル浮動小数点行列
Authors: Cheng-Wei Huang, Tim-Wei Chen, and Juinn-Dar Huang
Abstract要約: 本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
参考スコア（独自算出の注目度）: 2.294014185517203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern deep neural network (DNN) models generally require a huge amount of weight and activation values to achieve good inference outcomes. Those data inevitably demand a massive off-chip memory capacity/bandwidth, and the situation gets even worse if they are represented in high-precision floating-point formats. Effort has been made for representing those data in different 8-bit floating-point formats, nevertheless, a notable accuracy loss is still unavoidable. In this paper we introduce an extremely flexible 8-bit floating-point (FFP8) format whose defining factors - the bit width of exponent/fraction field, the exponent bias, and even the presence of the sign bit - are all configurable. We also present a methodology to properly determine those factors so that the accuracy of model inference can be maximized. The foundation of this methodology is based on a key observation - both the maximum magnitude and the value distribution are quite dissimilar between weights and activations in most DNN models. Experimental results demonstrate that the proposed FFP8 format achieves an extremely low accuracy loss of $0.1\%\sim 0.3\%$ for several representative image classification models even without the need of model retraining. Besides, it is easy to turn a classical floating-point processing unit into an FFP8-compliant one, and the extra hardware cost is minor.
Abstract（参考訳）: 現代のディープニューラルネットワーク(DNN)モデルは、良い推論結果を得るためには、一般的に大量の重みとアクティベーション値を必要とする。これらのデータは必然的に大量のオフチップメモリ容量/帯域幅を必要とし、高い精度の浮動小数点フォーマットで表現された場合、状況はさらに悪化する。異なる8ビット浮動小数点のフォーマットでこれらのデータを表現するための努力が続けられているが、それでも注目すべき精度の損失は避けられない。本稿では,指数/屈折場のビット幅,指数バイアス,さらには符号ビットの存在さえ定義可能な,非常に柔軟な8ビット浮動小数点(FFP8)フォーマットを提案する。また,モデル推論の精度を最大化できるように,これらの要因を適切に決定する手法を提案する。この手法の基礎はキーとなる観測に基づいており、最大等級と値分布は、ほとんどのDNNモデルにおける重みとアクティベーションの相違点である。実験結果から,モデル再トレーニングを必要とせずとも,複数の代表的な画像分類モデルに対して,FFP8フォーマットが0.1\%\sim 0.3\%の極めて低い精度の損失を達成できた。さらに、古典的な浮動小数点処理ユニットをFFP8準拠のユニットにするのは簡単で、余分なハードウェアコストは小さい。

関連論文リスト

"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文参考訳（メタデータ） (2023-11-21T05:27:16Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。 E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。 16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文参考訳（メタデータ） (2022-09-12T17:39:55Z)
FP8 Quantization: The Power of the Exponent [19.179749424362686]
本稿では,ニューラルネットワーク推論における浮動小数点方式の利点について検討する。我々はFP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含む。これらの結果が実際のネットワークにどのように変換され、FP8シミュレーションの効率的な実装と新しいアルゴリズムが提供されるかを示す。
論文参考訳（メタデータ） (2022-08-19T09:03:00Z)
8-bit Numerical Formats for Deep Neural Networks [1.304892050913381]
本研究では,8ビット浮動小数点数形式を用いて,トレーニングと推論の両方にアクティベーション,重み,勾配を求める。実験により、これらの低精度フォーマットの適切な選択は、画像分類と言語処理のための様々なディープラーニングモデルに対して、精度を劣化させることなく、高速なトレーニングと消費電力削減を可能にすることが示された。
論文参考訳（メタデータ） (2022-06-06T21:31:32Z)
PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文参考訳（メタデータ） (2021-04-30T19:30:37Z)
Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文参考訳（メタデータ） (2020-06-21T08:23:03Z)
Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文参考訳（メタデータ） (2020-02-03T04:11:13Z)
Shifted and Squeezed 8-bit Floating Point format for Low-Precision Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文参考訳（メタデータ） (2020-01-16T06:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。