論文の概要: Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers
- arxiv url: http://arxiv.org/abs/2406.05866v1
- Date: Sun, 9 Jun 2024 17:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.687517
- Title: Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers
- Title(参考訳): Procrastinationは、浮動小数点、ポジット、対数数のための指数付き累積器
- Authors: Vincenzo Liguori,
- Abstract要約: 本稿では,浮動小数点数の長い列の和をシンプルかつ効果的に求める。
浮動小数点数のマニッサを指数で指数付けしたアキュムレータに付加する累積位相と、実際の総和結果が終了する再構成位相とからなる。
FPGAとASICの両方のアーキテクチャの詳細は、演算を乗算器で融合させ、効率的なMACを作成することを含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses a simple and effective method for the summation of long sequences of floating point numbers. The method comprises two phases: an accumulation phase where the mantissas of the floating point numbers are added to accumulators indexed by the exponents and a reconstruction phase where the actual summation result is finalised. Various architectural details are given for both FPGAs and ASICs including fusing the operation with a multiplier, creating efficient MACs. Some results are presented for FPGAs, including a tensor core capable of multiplying and accumulating two 4x4 matrices of bfloat16 values every clock cycle using ~6,400 LUTs + 64 DSP48 in AMD FPGAs at 700+ MHz. The method is then extended to posits and logarithmic numbers.
- Abstract(参考訳): 本稿では,浮動小数点数の長い列の和をシンプルかつ効果的に求める。
浮動小数点数のマニッサを指数で指数付けしたアキュムレータに付加する累積位相と、実際の総和結果が終了する再構成位相とからなる。
FPGAとASICの両方のアーキテクチャの詳細は、演算を乗算器で融合させ、効率的なMACを作成することを含む。
例えば、700 MHzのAMD FPGAで ~6,400 LUTs + 64 DSP48 を用いて、bfloat16 の2つの 4x4 行列を1クロックサイクル毎に乗算して蓄積できるテンソルコアなどである。
その後、メソッドはポジットと対数数に拡張される。
関連論文リスト
- SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
SageAttention2を提案する。これは精度向上とともに,より高速な4ビット行列乗算(Matmul)を実現する。
時間ステップと層間の量子化精度を解析し、エンドツーエンドのメトリクスを保証するための適応量子化手法を提案する。
実験により、我々のアプローチは様々なモデルにまたがって無視できるエンドツーエンドのメトリクス損失を引き起こすことを確認した。
論文 参考訳(メタデータ) (2024-11-17T04:35:49Z) - On the Constant Depth Implementation of Pauli Exponentials [49.48516314472825]
任意の指数を$mathcalO(n)$ ancillae と 2体 XX と ZZ の相互作用を用いて一定深さの回路に分解する。
クビットリサイクルの恩恵を受ける回路の書き直し規則を導入し,本手法の正しさを実証する。
論文 参考訳(メタデータ) (2024-08-15T17:09:08Z) - A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。
暗号化アプリケーションにおけるスケーラビリティの課題に対処する。
このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文 参考訳(メタデータ) (2024-07-17T13:24:52Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - An Efficient Summation Algorithm for the Accuracy, Convergence and
Reproducibility of Parallel Numerical Methods [0.0]
我々は浮動小数点数の列をまとめる新しい並列アルゴリズムを導入した。
プロセッサ数で簡単にスケールアップできるこのアルゴリズムは、まず同じ指数の数を加算する。
この記事では、いくつかの特性に関して、その効率を広範囲に分析する。
論文 参考訳(メタデータ) (2022-05-11T08:31:48Z) - Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators [2.6487352458568507]
異なる整数および浮動小数点(FP)精度をサポートする混合精度畳み込みユニットアーキテクチャを提案する。
FP計算を整数ベースのアーキテクチャに統合し、FP演算サポートによるオーバーヘッドを評価する方法を紹介します。
論文 参考訳(メタデータ) (2021-01-27T23:57:43Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - Photonic reservoir computer based on frequency multiplexing [56.663315405998354]
本稿では、周波数領域多重化を利用してニューロン状態を符号化する貯水池コンピュータのフォトニック実装について報告する。
このシステムは同時に25個のコムライン(すなわち25個のニューロン)を20MHzの速度で処理する。
論文 参考訳(メタデータ) (2020-08-25T19:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。