論文の概要: Integration of a systolic array based hardware accelerator into a DNN
operator auto-tuning framework
- arxiv url: http://arxiv.org/abs/2212.03034v1
- Date: Tue, 6 Dec 2022 15:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 18:11:25.999500
- Title: Integration of a systolic array based hardware accelerator into a DNN
operator auto-tuning framework
- Title(参考訳): シストリックアレイを用いたハードウェアアクセラレーターのDNNオペレータ自動チューニングフレームワークへの統合
- Authors: F. N. Peccia, O. Bringmann
- Abstract要約: コード生成フレームワークTVMとsystolic配列ベースのアクセラレータGemminiの統合について紹介する。
生成したコードは、Xilinx ZCU102 FPGA上で100MHzクロックで46ギガ演算(GOP)のピークスループットを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of neural networks on heterogeneous SoCs coupled with custom
accelerators is a challenging task because of the lack of end-to-end software
tools provided for these systems. Moreover, the already available low level
schedules and mapping strategies provided by the accelerator developers for
typical tensor operations are not necessarily the best possible ones for each
particular use case. This is why frameworks which automatically test the
performance of the generated code on a specific hardware configuration are of
special interest. In this work, the integration between the code generation
framework TVM and the systolic array-based accelerator Gemmini is presented. A
generic schedule to offload the GEneral Matrix Multiply (GEMM) tensor operation
onto Gemmini is detailed, and its suitability is tested by executing the
AutoTVM tuning process on it. Our generated code achieves a peak throughput of
46 giga-operations per second (GOPs) under a 100 MHz clock on a Xilinx ZCU102
FPGA, outperforming previous work. Furthermore, the code generated by this
integration was able to surpass the default hand-tuned schedules provided by
the Gemmini developers in real-world workloads.
- Abstract(参考訳): カスタムアクセラレータと組み合わせた異種SoCへのニューラルネットワークのデプロイは、これらのシステムに提供されるエンドツーエンドソフトウェアツールが欠如しているため、難しい作業である。
さらに、アクセル開発者が典型的なテンソル操作のために提供している、すでに利用可能な低レベルのスケジュールとマッピング戦略は、必ずしも特定のユースケースごとに最適なものとは限らない。
そのため、特定のハードウェア構成上で生成されたコードのパフォーマンスを自動的にテストするフレームワークが特に興味深い。
本稿では,コード生成フレームワークであるtvmとsystolic arrayベースのアクセラレータであるgemminiの統合について述べる。
general Matrix Multiply (GEMM) テンソル操作をGemminiにオフロードする一般的なスケジュールについて詳述し、AutoTVMチューニングプロセスを実行することでその適合性を検証した。
生成したコードは、Xilinx ZCU102FPGA上で100MHzクロックで46ギガオペレーション/秒(GOP)のピークスループットを実現する。
さらに、この統合によって生成されたコードは、gemmini開発者が実際のワークロードで提供するデフォルトのハンドチューニングされたスケジュールを超えることができた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Efficient Edge AI: Deploying Convolutional Neural Networks on FPGA with the Gemmini Accelerator [0.5714074111744111]
我々は、Gemminiアクセラレーターを用いて、FPGA(Field Programmable Gate Arrays)上にCNNを配置するためのエンドツーエンドワークフローを提示する。
Xilinx ZCU102 FPGA 上で YOLOv7 モデルを36.5 GOP/s/W のエネルギー効率で実装することにより,リアルタイムな性能を実現することができた。
論文 参考訳(メタデータ) (2024-08-14T09:24:00Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - GROW: A Row-Stationary Sparse-Dense GEMM Accelerator for
Memory-Efficient Graph Convolutional Neural Networks [4.669338722185048]
グラフ畳み込みニューラルネットワーク(GCN)のユニークな特徴は、その2つの主要な実行ステージであるアグリゲーションと組み合わせが、大幅に異なるデータフローを示すことである。
本稿では,GustavsonのアルゴリズムをベースとしたGCNアクセラレータGROWについて述べる。
論文 参考訳(メタデータ) (2022-03-01T00:26:31Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z) - Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix
Multiplication [4.878665155352402]
我々は,所定の空間加速器とワークロードの組み合わせに対して,階層化されたGEMMに対して最適化されたマッピングを求めるフレームワークを開発する。
5つの空間加速器を用いた評価結果から,本フレームワークが系統的に生成したGEMMマッピングは高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-06-19T13:53:58Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z) - Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM
Compiler Stack [1.8337659614890698]
ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。
フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。
プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2020-04-20T10:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。