論文の概要: PDPU: An Open-Source Posit Dot-Product Unit for Deep Learning
Applications
- arxiv url: http://arxiv.org/abs/2302.01876v1
- Date: Fri, 3 Feb 2023 17:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:40:47.172199
- Title: PDPU: An Open-Source Posit Dot-Product Unit for Deep Learning
Applications
- Title(参考訳): PDPU:ディープラーニングアプリケーションのためのオープンソースポジットDot-Product Unit
- Authors: Qiong Li, Chao Fang, Zhongfeng Wang
- Abstract要約: Positは、ディープラーニングアプリケーションのためのIEEE-754浮動小数点フォーマットに代わる有望な代替品だ。
乗算器と加算木の組み合わせ、またはカスケード融合型乗算器の組み合わせによって実装され、計算効率が悪く、ハードウェアのオーバーヘッドが過大になる。
本稿では,資源効率と高スループットのドット生成ハードウェアの実装を容易にするオープンソースのポジットドット生成ユニットPDPUを提案する。
- 参考スコア(独自算出の注目度): 9.253002604030085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Posit has been a promising alternative to the IEEE-754 floating point format
for deep learning applications due to its better trade-off between dynamic
range and accuracy. However, hardware implementation of posit arithmetic
requires further exploration, especially for the dot-product operations
dominated in deep neural networks (DNNs). It has been implemented by either the
combination of multipliers and an adder tree or cascaded fused multiply-add
units, leading to poor computational efficiency and excessive hardware
overhead. To address this issue, we propose an open-source posit dot-product
unit, namely PDPU, that facilitates resource-efficient and high-throughput
dot-product hardware implementation. PDPU not only features the fused and
mixed-precision architecture that eliminates redundant latency and hardware
resources, but also has a fine-grained 6-stage pipeline, improving
computational efficiency. A configurable PDPU generator is further developed to
meet the diverse needs of various DNNs for computational accuracy. Experimental
results evaluated under the 28nm CMOS process show that PDPU reduces area,
latency, and power by up to 43%, 64%, and 70%, respectively, compared to the
existing implementations. Hence, PDPU has great potential as the computing core
of posit-based accelerators for deep learning applications.
- Abstract(参考訳): Positは、ダイナミックレンジと精度のトレードオフが優れているため、ディープラーニングアプリケーションのためのIEEE-754浮動小数点フォーマットに代わる有望な代替手段である。
しかし、特にディープニューラルネットワーク(DNN)に支配されるドット積演算において、ポジット演算のハードウェア実装にはさらなる探索が必要である。
乗算器と加算木の組み合わせ、あるいは分岐された乗算加算ユニットによって実装され、計算効率が低下し、ハードウェアのオーバーヘッドが過大になった。
本稿では,資源効率と高スループットのドット生成ハードウェアの実装を容易にするオープンソースのポジットドット生成ユニットPDPUを提案する。
PDPUは、冗長なレイテンシとハードウェアリソースを排除した、融合された混合精度アーキテクチャを特徴とするだけでなく、きめ細かい6ステージパイプラインを備え、計算効率が向上している。
計算精度を向上させるため,様々なDNNのニーズを満たす構成可能なPDPUジェネレータを開発した。
28nmCMOSプロセスで評価した結果、PDPUは既存の実装と比較して、最大で43%、最大で64%、消費電力を70%削減できることがわかった。
したがってPDPUは、ディープラーニングアプリケーションのためのpotベースのアクセラレーターのコンピューティングコアとして大きな可能性を秘めている。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - PLAM: a Posit Logarithm-Approximate Multiplier for Power Efficient
Posit-based DNNs [8.623938357911467]
ポジット番号システムは2017年に浮動小数点数の代替として導入された。
本稿では,ポジット乗算器の複雑性を著しく低減するPosit Logarithm-Approximate乗算法を提案する。
提案手法は,ハードウェア乗算器の面積,電力,遅延をそれぞれ72.86%,81.79%,17.01%まで低減し,精度を低下させることがないことを示す。
論文 参考訳(メタデータ) (2021-02-18T10:43:07Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Dopant Network Processing Units: Towards Efficient Neural-network
Emulators with High-capacity Nanoelectronic Nodes [0.0]
DNPU(Dopant Network Processing Units)はエネルギー効率が高く,スループットも高い可能性がある。
我々は、DNPUを高容量ニューロンとして導入し、単一ニューロンからマルチニューロンフレームワークに移行する。
フィードフォワードDNPUネットワークは,1つのDNPUの性能を77%から94%に向上することを示した。
論文 参考訳(メタデータ) (2020-07-24T06:35:44Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。