Fugu-MT 論文翻訳(概要): Comparative Study: Standalone IEEE 16-bit Floating-Point for Image Classification

論文の概要: Comparative Study: Standalone IEEE 16-bit Floating-Point for Image Classification

arxiv url: http://arxiv.org/abs/2305.10947v2
Date: Fri, 25 Aug 2023 05:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 17:23:24.708274
Title: Comparative Study: Standalone IEEE 16-bit Floating-Point for Image Classification
Title（参考訳）: 画像分類のためのスタンドアロンIEEE 16ビット浮動小数点比較
Authors: Juyoung Yun, Byungkon Kang, Francois Rameau, Zhoulai Fu
Abstract要約: 本研究では,IEEEの16ビットフォーマットを比較解析に利用することに焦点を当てた。一連の厳密な実験によって支援された研究は、スタンドアロンのIEEE 16ビット浮動小数点ニューラルネットワークが、様々な画像分類タスクにおいて32ビットと混合精度のネットワークと同等に動作可能である理由を定量的に説明する。
参考スコア（独自算出の注目度）: 2.4321382081341962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reducing the number of bits needed to encode the weights and activations of neural networks is highly desirable as it speeds up their training and inference time while reducing memory consumption. It is unsurprising that considerable attention has been drawn to developing neural networks that employ lower-precision computation. This includes IEEE 16-bit, Google bfloat16, 8-bit, 4-bit floating-point or fixed-point, 2-bit, and various mixed-precision algorithms. Out of these low-precision formats, IEEE 16-bit stands out due to its universal compatibility with contemporary GPUs. This accessibility contrasts with bfloat16, which needs high-end GPUs, or other non-standard fewer-bit designs, which typically require software simulation. This study focuses on the widely accessible IEEE 16-bit format for comparative analysis. This analysis involves an in-depth theoretical investigation of the factors that lead to discrepancies between 16-bit and 32-bit models, including a formalization of the concepts of floating-point error and tolerance to understand the conditions under which a 16-bit model can approximate 32-bit results. Contrary to literature that credits the success of noise-tolerated neural networks to regularization effects, our study-supported by a series of rigorous experiments-provides a quantitative explanation of why standalone IEEE 16-bit floating-point neural networks can perform on par with 32-bit and mixed-precision networks in various image classification tasks. Because no prior research has studied IEEE 16-bit as a standalone floating-point precision in neural networks, we believe our findings will have significant impacts, encouraging the adoption of standalone IEEE 16-bit networks in future neural network applications.
Abstract（参考訳）: ニューラルネットワークの重みとアクティベーションをエンコードするために必要なビット数を減らすことは、トレーニングと推論時間を短縮しながらメモリ消費を削減し、非常に望ましい。低精度計算を用いたニューラルネットワークの開発にかなりの注意が向けられているのは当然である。これにはIEEE 16ビット、Google bfloat16、8ビット、4ビット浮動小数点または固定点、2ビット、様々な混合精度アルゴリズムが含まれる。これらの低精度フォーマットのうち、IEEE 16ビットは現代のGPUとの普遍的な互換性のために際立っている。このアクセシビリティは、ハイエンドGPUを必要とするbfloat16や、ソフトウェアシミュレーションを必要とする非標準の低ビット設計とは対照的である。本研究は、IEEE 16ビットフォーマットで比較分析を行う。この分析は、浮動小数点誤差の概念の形式化や、16ビットモデルが32ビットの結果を近似できる条件を理解することを含む、16ビットモデルと32ビットモデルの間に相違をもたらす要因の詳細な理論的研究を含む。ノイズ耐性ニューラルネットワークの成功を正則化効果に寄与する文献とは対照的に、厳密な実験によって支援された研究は、スタンドアロンのIEEE 16ビット浮動小数点ニューラルネットワークが、様々な画像分類タスクにおいて32ビットと混合精度のネットワークと同等に動作可能である理由を定量的に説明する。ニューラルネットワークにおけるスタンドアロン浮動小数点精度としてieee 16ビットの研究は行われていないので,今後のニューラルネットワークアプリケーションにおけるスタンドアロンieee 16ビットネットワークの採用が促進されるであろう。

関連論文リスト

Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
Continuous 16-bit Training: Accelerating 32-bit Pre-Trained Neural Networks [0.0]
本研究では,既存の32ビットモデルのトレーニングを16ビット精度で継続する手法を提案する。進行中のトレーニングに16ビットの精度を採用することで、メモリ要件と計算負荷を大幅に削減できる。実験により,本手法は,元の32ビットトレーニングによって設定された高精度な精度を維持しつつ,学習速度を向上することを示す。
論文参考訳（メタデータ） (2023-11-30T14:28:25Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
The Hidden Power of Pure 16-bit Floating-Point Neural Networks [1.9594704501292781]
ニューラルネットワークの精度を32ビットの精度から下げることは、長年、パフォーマンスに有害であると考えられてきた。本稿では,32ビットネットワーク上での純粋16ビットニューラルネットワークの性能向上について検討する。
論文参考訳（メタデータ） (2023-01-30T12:01:45Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。 E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。 16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文参考訳（メタデータ） (2022-09-12T17:39:55Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文参考訳（メタデータ） (2021-04-30T19:30:37Z)
FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。 fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-01-13T00:34:04Z)
Revisiting BFloat16 Training [30.99618783594963]
最先端の汎用的低精度トレーニングアルゴリズムでは、16ビットと32ビットの精度が混在している。ディープラーニングアクセラレータは、16ビットと32ビットの浮動小数点ユニットの両方をサポートせざるを得ない。
論文参考訳（メタデータ） (2020-10-13T05:38:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。