論文の概要: Comparative Study: Standalone IEEE 16-bit Floating-Point for Image
Classification
- arxiv url: http://arxiv.org/abs/2305.10947v2
- Date: Fri, 25 Aug 2023 05:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:23:24.708274
- Title: Comparative Study: Standalone IEEE 16-bit Floating-Point for Image
Classification
- Title(参考訳): 画像分類のためのスタンドアロンIEEE 16ビット浮動小数点比較
- Authors: Juyoung Yun, Byungkon Kang, Francois Rameau, Zhoulai Fu
- Abstract要約: 本研究では,IEEEの16ビットフォーマットを比較解析に利用することに焦点を当てた。
一連の厳密な実験によって支援された研究は、スタンドアロンのIEEE 16ビット浮動小数点ニューラルネットワークが、様々な画像分類タスクにおいて32ビットと混合精度のネットワークと同等に動作可能である理由を定量的に説明する。
- 参考スコア(独自算出の注目度): 2.4321382081341962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the number of bits needed to encode the weights and activations of
neural networks is highly desirable as it speeds up their training and
inference time while reducing memory consumption. It is unsurprising that
considerable attention has been drawn to developing neural networks that employ
lower-precision computation. This includes IEEE 16-bit, Google bfloat16, 8-bit,
4-bit floating-point or fixed-point, 2-bit, and various mixed-precision
algorithms. Out of these low-precision formats, IEEE 16-bit stands out due to
its universal compatibility with contemporary GPUs. This accessibility
contrasts with bfloat16, which needs high-end GPUs, or other non-standard
fewer-bit designs, which typically require software simulation. This study
focuses on the widely accessible IEEE 16-bit format for comparative analysis.
This analysis involves an in-depth theoretical investigation of the factors
that lead to discrepancies between 16-bit and 32-bit models, including a
formalization of the concepts of floating-point error and tolerance to
understand the conditions under which a 16-bit model can approximate 32-bit
results. Contrary to literature that credits the success of noise-tolerated
neural networks to regularization effects, our study-supported by a series of
rigorous experiments-provides a quantitative explanation of why standalone IEEE
16-bit floating-point neural networks can perform on par with 32-bit and
mixed-precision networks in various image classification tasks. Because no
prior research has studied IEEE 16-bit as a standalone floating-point precision
in neural networks, we believe our findings will have significant impacts,
encouraging the adoption of standalone IEEE 16-bit networks in future neural
network applications.
- Abstract(参考訳): ニューラルネットワークの重みとアクティベーションをエンコードするために必要なビット数を減らすことは、トレーニングと推論時間を短縮しながらメモリ消費を削減し、非常に望ましい。
低精度計算を用いたニューラルネットワークの開発にかなりの注意が向けられているのは当然である。
これにはIEEE 16ビット、Google bfloat16、8ビット、4ビット浮動小数点または固定点、2ビット、様々な混合精度アルゴリズムが含まれる。
これらの低精度フォーマットのうち、IEEE 16ビットは現代のGPUとの普遍的な互換性のために際立っている。
このアクセシビリティは、ハイエンドGPUを必要とするbfloat16や、ソフトウェアシミュレーションを必要とする非標準の低ビット設計とは対照的である。
本研究は、IEEE 16ビットフォーマットで比較分析を行う。
この分析は、浮動小数点誤差の概念の形式化や、16ビットモデルが32ビットの結果を近似できる条件を理解することを含む、16ビットモデルと32ビットモデルの間に相違をもたらす要因の詳細な理論的研究を含む。
ノイズ耐性ニューラルネットワークの成功を正則化効果に寄与する文献とは対照的に、厳密な実験によって支援された研究は、スタンドアロンのIEEE 16ビット浮動小数点ニューラルネットワークが、様々な画像分類タスクにおいて32ビットと混合精度のネットワークと同等に動作可能である理由を定量的に説明する。
ニューラルネットワークにおけるスタンドアロン浮動小数点精度としてieee 16ビットの研究は行われていないので,今後のニューラルネットワークアプリケーションにおけるスタンドアロンieee 16ビットネットワークの採用が促進されるであろう。
関連論文リスト
- Compressed Real Numbers for AI: a case-study using a RISC-V CPU [2.0516276923852415]
我々は、機械学習アプリケーションにおいて、バイナリ32数値を圧縮する興味深い結果を得た2種類のフォーマットに焦点を当てる。
本稿では,計算直前に浮動小数点のテンソルを分解する方法を提案する。
論文 参考訳(メタデータ) (2023-09-11T07:54:28Z) - The Hidden Power of Pure 16-bit Floating-Point Neural Networks [4.554894288663752]
ニューラルネットワークの精度を32ビットの精度から下げることは、長年、パフォーマンスに有害であると考えられてきた。
本稿では,32ビットネットワーク上での純粋16ビットニューラルネットワークの性能向上について検討する。
論文 参考訳(メタデータ) (2023-01-30T12:01:45Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。
エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。
その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文 参考訳(メタデータ) (2021-04-30T19:30:37Z) - Representation range needs for 16-bit neural network training [2.2657486535885094]
浮動小数点演算では指数ビット数の変化に伴い精度と表現範囲のトレードオフが存在する。
我々は6ビットの指数と9ビットの明示的なマンティッサという1/6/9フォーマットを提案する。
1/6/9混合精度トレーニングは,非正規動作の性能低下を引き起こすハードウェア上でのトレーニングを高速化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T20:30:02Z) - Revisiting BFloat16 Training [30.99618783594963]
最先端の汎用的低精度トレーニングアルゴリズムでは、16ビットと32ビットの精度が混在している。
ディープラーニングアクセラレータは、16ビットと32ビットの浮動小数点ユニットの両方をサポートせざるを得ない。
論文 参考訳(メタデータ) (2020-10-13T05:38:07Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。