Fugu-MT 論文翻訳(概要): A Compilation Flow for the Generation of CNN Inference Accelerators on FPGAs

論文の概要: A Compilation Flow for the Generation of CNN Inference Accelerators on FPGAs

arxiv url: http://arxiv.org/abs/2203.04015v1
Date: Tue, 8 Mar 2022 11:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-09 19:35:35.200556
Title: A Compilation Flow for the Generation of CNN Inference Accelerators on FPGAs
Title（参考訳）: FPGA上でのCNN推論加速器生成のためのコンパイルフロー
Authors: Seung-Hun Chung and Tarek S. Abdelrahman
Abstract要約: FPGA上でのCNN推論アクセラレータ生成のためのコンパイルフローを提案する。このフローは、フリーズされたモデルをTVMコンパイラでOpenCLカーネルに変換し、Intel OpenCL SDKを使用してFPGAビットストリームにコンパイルする。我々は,TVM が生成するベース OpenCL カーネルに最適化を適用することにより,生成されたハードウェアの品質を向上させる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a compilation flow for the generation of CNN inference accelerators on FPGAs. The flow translates a frozen model into OpenCL kernels with the TVM compiler and uses the Intel OpenCL SDK to compile to an FPGA bitstream. We improve the quality of the generated hardware with optimizations applied to the base OpenCL kernels generated by TVM. These optimizations increase parallelism, reduce memory access latency, increase concurrency and save on-chip resources. We automate these optimizations in TVM and evaluate them by generating accelerators for LeNet-5, MobileNetV1 and ResNet-34 on an Intel Stratix~10SX. We show that the optimizations improve the performance of the generated accelerators by up to 846X over the base accelerators. The performance of the optimized accelerators is up to 4.57X better than TensorFlow on CPU, 3.83X better than single-threaded TVM and is only 0.34X compared to TVM with 56 threads. Our optimized kernels also outperform ones generated by a similar approach (that also uses high-level synthesis) while providing more functionality and flexibility. However, it underperforms an approach that utilizes hand-optimized designs. Thus, we view our approach as useful in pre-production environments that benefit from increased performance and fast prototyping, realizing the benefits of FPGAs without hardware design expertise.
Abstract（参考訳）: FPGA上でのCNN推論アクセラレータ生成のためのコンパイルフローを提案する。このフローは、凍結したモデルをTVMコンパイラでOpenCLカーネルに変換し、Intel OpenCL SDKを使用してFPGAビットストリームにコンパイルする。我々は,tvm が生成する opencl カーネルを最適化することで,生成ハードウェアの品質を向上させる。これらの最適化は並列性を高め、メモリアクセス遅延を減らし、並行性を高め、チップ上のリソースを節約する。我々はこれらの最適化をTVMで自動化し、Intel Stratix~10SX上でLeNet-5、MobileNetV1、ResNet-34のアクセラレータを生成して評価する。この最適化により,生成したアクセラレータの性能は,ベースアクセラレータよりも最大846倍向上する。最適化されたアクセラレータのパフォーマンスは、CPU上のTensorFlowよりも4.57倍、シングルスレッドTVMより3.83倍、56スレッドのTVMに比べてわずか0.34倍である。私たちの最適化されたカーネルは、機能と柔軟性を提供しながら、同様のアプローチ(ハイレベルな合成も使う)によって生成されるものよりも優れています。しかし、手首に最適化されたデザインを用いるアプローチを弱めている。したがって,本手法は,ハードウェア設計の専門知識がなくてもFPGAの利点を享受し,性能向上と高速プロトタイピングの恩恵を受けるプリプロダクション環境において有用であると考えている。

関連論文リスト

FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文参考訳（メタデータ） (2024-09-21T05:25:46Z)
An FPGA-Based Accelerator Enabling Efficient Support for CNNs with Arbitrary Kernel Sizes [11.681245043617848]
大規模なカーネルを持つ畳み込みニューラルネットワーク(CNN)は、様々な視覚ベースのアプリケーションで顕著なパフォーマンスを示している。任意のカーネルサイズを持つCNNを効率的に展開するためのFPGAベースの推論アクセラレータを提案する。提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を実現している。
論文参考訳（メタデータ） (2024-02-22T05:52:55Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。 CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文参考訳（メタデータ） (2023-04-24T22:20:42Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。 FPGAはCNN推論を加速する関心が高まっている。 FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文参考訳（メタデータ） (2022-09-22T18:57:49Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
FFCNN: Fast FPGA based Acceleration for Convolution neural network inference [0.0]
畳み込みニューラルネットワーク(FFCNN)のためのFPGAの高速推論について述べる。 FFCNNは、深くパイプライン化されたOpenCLカーネルアーキテクチャに基づいている。データ再利用とタスクマッピング技術も設計効率を向上させるために提案されている。
論文参考訳（メタデータ） (2022-08-28T16:55:25Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文参考訳（メタデータ） (2021-04-29T17:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。