論文の概要: Compressed Real Numbers for AI: a case-study using a RISC-V CPU
- arxiv url: http://arxiv.org/abs/2309.07158v1
- Date: Mon, 11 Sep 2023 07:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:38:25.297252
- Title: Compressed Real Numbers for AI: a case-study using a RISC-V CPU
- Title(参考訳): AIのための圧縮実数:RISC-V CPUを用いたケーススタディ
- Authors: Federico Rossi, Marco Cococcioni, Roger Ferrer Ib\`a\~nez, Jes\`us
Labarta, Filippo Mantovani, Marc Casas, Emanuele Ruffaldi and Sergio Saponara
- Abstract要約: 我々は、機械学習アプリケーションにおいて、バイナリ32数値を圧縮する興味深い結果を得た2種類のフォーマットに焦点を当てる。
本稿では,計算直前に浮動小数点のテンソルを分解する方法を提案する。
- 参考スコア(独自算出の注目度): 2.0516276923852415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As recently demonstrated, Deep Neural Networks (DNN), usually trained using
single precision IEEE 754 floating point numbers (binary32), can also work
using lower precision. Therefore, 16-bit and 8-bit compressed format have
attracted considerable attention. In this paper, we focused on two families of
formats that have already achieved interesting results in compressing binary32
numbers in machine learning applications, without sensible degradation of the
accuracy: bfloat and posit. Even if 16-bit and 8-bit bfloat/posit are routinely
used for reducing the storage of the weights/biases of trained DNNs, the
inference still often happens on the 32-bit FPU of the CPU (especially if GPUs
are not available). In this paper we propose a way to decompress a tensor of
bfloat/posits just before computations, i.e., after the compressed operands
have been loaded within the vector registers of a vector capable CPU, in order
to save bandwidth usage and increase cache efficiency. Finally, we show the
architectural parameters and considerations under which this solution is
advantageous with respect to the uncompressed one.
- Abstract(参考訳): 最近発表されたように、シングル精度のIEEE 754浮動小数点数(binary32)を使用してトレーニングされるディープニューラルネットワーク(DNN)も、低い精度で動作する。
したがって、16ビットと8ビットの圧縮フォーマットが注目されている。
本稿では,機械学習アプリケーションにおけるbinary32の数値圧縮において,bfloat と positive の精度を合理的に低下させることなく,すでに興味深い結果が得られた2種類のフォーマットに注目した。
16ビットと8ビットのbfloat/positがトレーニングされたDNNの重み/バイアスの保存に日常的に使用されているとしても、推論はCPUの32ビットFPU(特にGPUが利用できない場合)で起こる。
本稿では,圧縮されたオペランドがベクトル対応CPUのベクトルレジスタにロードされた後に,計算直前に浮動小数点数のテンソルを分解し,帯域幅を節約し,キャッシュ効率を向上する手法を提案する。
最後に、このソリューションが圧縮されていないものに対して有利であるアーキテクチャパラメータと考察を示す。
関連論文リスト
- Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Exploiting Kernel Compression on BNNs [0.0]
本研究では,一組の重みを表す一意列の数が典型的に低いことを観察する。
本稿では、最も一般的なビット列を識別し、あまり一般的でないビット列を類似の共通配列に置き換えるクラスタリング手法を提案する。
実験結果から,本手法はメモリ要求量を1.32倍に削減し,性能を1.35倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-12-01T16:05:10Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。
エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。
その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文 参考訳(メタデータ) (2021-04-30T19:30:37Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Representation range needs for 16-bit neural network training [2.2657486535885094]
浮動小数点演算では指数ビット数の変化に伴い精度と表現範囲のトレードオフが存在する。
我々は6ビットの指数と9ビットの明示的なマンティッサという1/6/9フォーマットを提案する。
1/6/9混合精度トレーニングは,非正規動作の性能低下を引き起こすハードウェア上でのトレーニングを高速化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T20:30:02Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。