論文の概要: Toward matrix multiplication for deep learning inference on the Xilinx
Versal
- arxiv url: http://arxiv.org/abs/2302.07594v1
- Date: Wed, 15 Feb 2023 11:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:15:47.550620
- Title: Toward matrix multiplication for deep learning inference on the Xilinx
Versal
- Title(参考訳): Xilinx Versal上でのディープラーニング推論のための行列乗算に向けて
- Authors: Jie Lei, Jos\'e Flich, Enrique S. Quintana-Ort\'i
- Abstract要約: Xilinx Versal VCK190上でのGEMMカーネルのプロトタイプ実装による実験結果は、理論的なピークの86.7%近くのパフォーマンスを提供する。
特に,Xilinx Versal VCK190上でGEMMカーネルのプロトタイプ実装により,理論ピークの86.7%に近い性能を実現した。
- 参考スコア(独自算出の注目度): 22.553939667954552
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The remarkable positive impact of Deep Neural Networks on many Artificial
Intelligence (AI) tasks has led to the development of various high performance
algorithms as well as specialized processors and accelerators. In this paper we
address this scenario by demonstrating that the principles underlying the
modern realization of the general matrix multiplication (GEMM) in conventional
processor architectures, are also valid to achieve high performance for the
type of operations that arise in deep learning (DL) on an exotic accelerator
such as the AI Engine (AIE) tile embedded in Xilinx Versal platforms. In
particular, our experimental results with a prototype implementation of the
GEMM kernel, on a Xilinx Versal VCK190, delivers performance close to 86.7% of
the theoretical peak that can be expected on an AIE tile, for 16-bit integer
operands.
- Abstract(参考訳): ディープニューラルネットワークの多くの人工知能(AI)タスクに対する顕著なポジティブな影響は、様々な高性能アルゴリズムや特別なプロセッサやアクセラレータの開発につながった。
本稿では,従来のプロセッサアーキテクチャにおける汎用行列乗法(GEMM)の現代的実現の基礎となる原理が,Xilinx Versalプラットフォームに埋め込まれたAIエンジン(AIE)タイルのようなエキゾチックなアクセラレータ上での深層学習(DL)で発生する演算のタイプに対して,高い性能を実現する上でも有効であることを示す。
特に、Xilinx Versal VCK190上のGEMMカーネルのプロトタイプ実装による実験結果により、AIEタイル上で期待できる理論ピークの86.7%に近い性能を16ビット整数オペランドに対して提供する。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - RISC-V RVV efficiency for ANN algorithms [0.5892638927736115]
本研究では、一般的なANNアルゴリズムにRVVを適用することの有効性について検討する。
アルゴリズムはRISC-Vに適応し、主要なボトルネックを特定した後、RVVを使用して最適化された。
論文 参考訳(メタデータ) (2024-07-18T09:26:07Z) - Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。
本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。
AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文 参考訳(メタデータ) (2024-07-02T15:28:10Z) - FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - Exploiting On-chip Heterogeneity of Versal Architecture for GNN
Inference Acceleration [0.5249805590164902]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析やバイオインフォマティクスなど、多くの機械学習(ML)アプリケーションに革命をもたらした。
我々は,AMD Versal ACAPアーキテクチャの不均一な計算能力を活用し,GNN推論を高速化する。
グラフ畳み込みネットワーク(GCN)では,同一のACAPデバイス上でのみPLを用いた設計と比較して3.9-96.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-08-04T23:57:55Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Large Scale Mask Optimization Via Convolutional Fourier Neural Operator
and Litho-Guided Self Training [54.16367467777526]
マスクタスクを効率的に学習できる畳み込みニューラルネットワーク(CFCF)を提案する。
機械学習ベースのフレームワークが初めて、最先端の数値マスクデータセットを上回った。
論文 参考訳(メタデータ) (2022-07-08T16:39:31Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。