Fugu-MT 論文翻訳(概要): Toward matrix multiplication for deep learning inference on the Xilinx Versal

論文の概要: Toward matrix multiplication for deep learning inference on the Xilinx Versal

arxiv url: http://arxiv.org/abs/2302.07594v1
Date: Wed, 15 Feb 2023 11:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-16 15:15:47.550620
Title: Toward matrix multiplication for deep learning inference on the Xilinx Versal
Title（参考訳）: Xilinx Versal上でのディープラーニング推論のための行列乗算に向けて
Authors: Jie Lei, Jos\'e Flich, Enrique S. Quintana-Ort\'i
Abstract要約: Xilinx Versal VCK190上でのGEMMカーネルのプロトタイプ実装による実験結果は、理論的なピークの86.7%近くのパフォーマンスを提供する。特に,Xilinx Versal VCK190上でGEMMカーネルのプロトタイプ実装により,理論ピークの86.7%に近い性能を実現した。
参考スコア（独自算出の注目度）: 22.553939667954552
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The remarkable positive impact of Deep Neural Networks on many Artificial Intelligence (AI) tasks has led to the development of various high performance algorithms as well as specialized processors and accelerators. In this paper we address this scenario by demonstrating that the principles underlying the modern realization of the general matrix multiplication (GEMM) in conventional processor architectures, are also valid to achieve high performance for the type of operations that arise in deep learning (DL) on an exotic accelerator such as the AI Engine (AIE) tile embedded in Xilinx Versal platforms. In particular, our experimental results with a prototype implementation of the GEMM kernel, on a Xilinx Versal VCK190, delivers performance close to 86.7% of the theoretical peak that can be expected on an AIE tile, for 16-bit integer operands.
Abstract（参考訳）: ディープニューラルネットワークの多くの人工知能(AI)タスクに対する顕著なポジティブな影響は、様々な高性能アルゴリズムや特別なプロセッサやアクセラレータの開発につながった。本稿では,従来のプロセッサアーキテクチャにおける汎用行列乗法(GEMM)の現代的実現の基礎となる原理が,Xilinx Versalプラットフォームに埋め込まれたAIエンジン(AIE)タイルのようなエキゾチックなアクセラレータ上での深層学習(DL)で発生する演算のタイプに対して,高い性能を実現する上でも有効であることを示す。特に、Xilinx Versal VCK190上のGEMMカーネルのプロトタイプ実装による実験結果により、AIEタイル上で期待できる理論ピークの86.7%に近い性能を16ビット整数オペランドに対して提供する。

関連論文リスト

The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文参考訳（メタデータ） (2025-06-13T12:40:16Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
RISC-V RVV efficiency for ANN algorithms [0.5892638927736115]
本研究では、一般的なANNアルゴリズムにRVVを適用することの有効性について検討する。アルゴリズムはRISC-Vに適応し、主要なボトルネックを特定した後、RVVを使用して最適化された。
論文参考訳（メタデータ） (2024-07-18T09:26:07Z)
Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。 AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文参考訳（メタデータ） (2024-07-02T15:28:10Z)
FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文参考訳（メタデータ） (2023-11-04T10:38:21Z)
Exploiting On-chip Heterogeneity of Versal Architecture for GNN Inference Acceleration [0.5249805590164902]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析やバイオインフォマティクスなど、多くの機械学習(ML)アプリケーションに革命をもたらした。我々は,AMD Versal ACAPアーキテクチャの不均一な計算能力を活用し,GNN推論を高速化する。グラフ畳み込みネットワーク(GCN)では,同一のACAPデバイス上でのみPLを用いた設計と比較して3.9-96.7倍の高速化を実現している。
論文参考訳（メタデータ） (2023-08-04T23:57:55Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Large Scale Mask Optimization Via Convolutional Fourier Neural Operator and Litho-Guided Self Training [54.16367467777526]
マスクタスクを効率的に学習できる畳み込みニューラルネットワーク(CFCF)を提案する。機械学習ベースのフレームワークが初めて、最先端の数値マスクデータセットを上回った。
論文参考訳（メタデータ） (2022-07-08T16:39:31Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
ALF: Autoencoder-based Low-rank Filter-sharing for Efficient Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。 ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文参考訳（メタデータ） (2020-07-27T09:01:22Z)
Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。 LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文参考訳（メタデータ） (2020-06-22T17:19:09Z)
Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文参考訳（メタデータ） (2020-06-15T02:57:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。