Fugu-MT 論文翻訳(概要): Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers

論文の概要: Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers

arxiv url: http://arxiv.org/abs/2406.05866v1
Date: Sun, 9 Jun 2024 17:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 17:38:03.687517
Title: Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers
Title（参考訳）: Procrastinationは、浮動小数点、ポジット、対数数のための指数付き累積器
Authors: Vincenzo Liguori,
Abstract要約: 本稿では,浮動小数点数の長い列の和をシンプルかつ効果的に求める。浮動小数点数のマニッサを指数で指数付けしたアキュムレータに付加する累積位相と、実際の総和結果が終了する再構成位相とからなる。 FPGAとASICの両方のアーキテクチャの詳細は、演算を乗算器で融合させ、効率的なMACを作成することを含む。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper discusses a simple and effective method for the summation of long sequences of floating point numbers. The method comprises two phases: an accumulation phase where the mantissas of the floating point numbers are added to accumulators indexed by the exponents and a reconstruction phase where the actual summation result is finalised. Various architectural details are given for both FPGAs and ASICs including fusing the operation with a multiplier, creating efficient MACs. Some results are presented for FPGAs, including a tensor core capable of multiplying and accumulating two 4x4 matrices of bfloat16 values every clock cycle using ~6,400 LUTs + 64 DSP48 in AMD FPGAs at 700+ MHz. The method is then extended to posits and logarithmic numbers.
Abstract（参考訳）: 本稿では,浮動小数点数の長い列の和をシンプルかつ効果的に求める。浮動小数点数のマニッサを指数で指数付けしたアキュムレータに付加する累積位相と、実際の総和結果が終了する再構成位相とからなる。 FPGAとASICの両方のアーキテクチャの詳細は、演算を乗算器で融合させ、効率的なMACを作成することを含む。例えば、700 MHzのAMD FPGAで ~6,400 LUTs + 64 DSP48 を用いて、bfloat16 の2つの 4x4 行列を1クロックサイクル毎に乗算して蓄積できるテンソルコアなどである。その後、メソッドはポジットと対数数に拡張される。

関連論文リスト

Block encoding of sparse matrices with a periodic diagonal structure [67.45502291821956]
周期的な対角構造を持つスパース行列を符号化するための明示的な量子回路を提供する。本手法の様々な応用は, 微分問題を解く文脈で論じる。
論文参考訳（メタデータ） (2026-02-11T07:24:33Z)
OISMA: On-the-fly In-memory Stochastic Multiplication Architecture for Matrix-Multiplication Workloads [0.2796197251957244]
OISMAは、準確率計算領域(Bent-Pyramidシステム)の計算単純性を利用する、新しいインメモリコンピューティングアーキテクチャである。 OISMAは通常のメモリ読み取り操作を、無視できるコストでインサイト乗算操作に変換する。精度は平均相対的なフロベニウス誤差を 9.42% (4x4) から 1.81% (512x512) に減少させる。
論文参考訳（メタデータ） (2025-08-12T10:24:33Z)
The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文参考訳（メタデータ） (2025-06-13T12:40:16Z)
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
SageAttention2を提案する。これは精度向上とともに,より高速な4ビット行列乗算(Matmul)を実現する。時間ステップと層間の量子化精度を解析し、エンドツーエンドのメトリクスを保証するための適応量子化手法を提案する。実験により、我々のアプローチは様々なモデルにまたがって無視できるエンドツーエンドのメトリクス損失を引き起こすことを確認した。
論文参考訳（メタデータ） (2024-11-17T04:35:49Z)
On the Constant Depth Implementation of Pauli Exponentials [49.48516314472825]
任意の指数を$mathcalO(n)$ ancillae と 2体 XX と ZZ の相互作用を用いて一定深さの回路に分解する。クビットリサイクルの恩恵を受ける回路の書き直し規則を導入し,本手法の正しさを実証する。
論文参考訳（メタデータ） (2024-08-15T17:09:08Z)
A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。暗号化アプリケーションにおけるスケーラビリティの課題に対処する。このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文参考訳（メタデータ） (2024-07-17T13:24:52Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。 175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文参考訳（メタデータ） (2022-08-15T17:08:50Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
An Efficient Summation Algorithm for the Accuracy, Convergence and Reproducibility of Parallel Numerical Methods [0.0]
我々は浮動小数点数の列をまとめる新しい並列アルゴリズムを導入した。プロセッサ数で簡単にスケールアップできるこのアルゴリズムは、まず同じ指数の数を加算する。この記事では、いくつかの特性に関して、その効率を広範囲に分析する。
論文参考訳（メタデータ） (2022-05-11T08:31:48Z)
Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators [2.6487352458568507]
異なる整数および浮動小数点(FP)精度をサポートする混合精度畳み込みユニットアーキテクチャを提案する。 FP計算を整数ベースのアーキテクチャに統合し、FP演算サポートによるオーバーヘッドを評価する方法を紹介します。
論文参考訳（メタデータ） (2021-01-27T23:57:43Z)
FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。 fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-01-13T00:34:04Z)
I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。 I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文参考訳（メタデータ） (2021-01-05T02:42:58Z)
Photonic reservoir computer based on frequency multiplexing [56.663315405998354]
本稿では、周波数領域多重化を利用してニューロン状態を符号化する貯水池コンピュータのフォトニック実装について報告する。このシステムは同時に25個のコムライン(すなわち25個のニューロン)を20MHzの速度で処理する。
論文参考訳（メタデータ） (2020-08-25T19:30:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。