論文の概要: DPUV3INT8: A Compiler View to programmable FPGA Inference Engines
- arxiv url: http://arxiv.org/abs/2110.04327v1
- Date: Fri, 8 Oct 2021 18:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:13:04.125962
- Title: DPUV3INT8: A Compiler View to programmable FPGA Inference Engines
- Title(参考訳): DPUV3INT8:プログラマブルFPGA推論エンジンのためのコンパイラビュー
- Authors: Paolo D'Alberto and Jiangsha Ma and Jintao Li and Yiming Hu and Manasa
Bollavaram and Shaoxia Fang
- Abstract要約: FPGA DPUV3INT8の設計とコンパイラの取り組みについて述べる。
Resnet50_v1用の手動SW-HWソリューションは、私たちのFPGA実装の2倍の画像を毎秒(スループット)で実現しています。
- 参考スコア(独自算出の注目度): 8.092194847164267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We have a FPGA design, we make it fast, efficient, and tested for a few
important examples. Now we must infer a general solution to deploy in the data
center. Here, we describe the FPGA DPUV3INT8 design and our compiler effort.
The hand-tuned SW-HW solution for Resnet50\_v1 has (close to) 2 times better
images per second (throughput) than our best FPGA implementation; the compiler
generalizes the hand written techniques achieving about 1.5 times better
performance for the same example, the compiler generalizes the optimizations to
a model zoo of networks, and it achieves 80+\% HW efficiency.
- Abstract(参考訳): FPGAの設計は高速で効率的で、いくつかの重要な例でテストされています。
現在、データセンターにデプロイする一般的なソリューションを推測する必要があります。
本稿ではFPGA DPUV3INT8の設計とコンパイラの取り組みについて述べる。
Resnet50\_v1のハンドチューニングによるSW-HWソリューションは、私たちのFPGA実装の2倍のイメージ(スループ)を持ち、コンパイラは、同じ例で1.5倍の性能を達成する手書きのテクニックを一般化し、コンパイラは最適化をネットワークのモデル動物園に一般化し、80%以上のHW効率を達成する。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - The Feasibility of Implementing Large-Scale Transformers on Multi-FPGA Platforms [1.0636475069923585]
大規模機械学習アプリケーションに複数のFPGAを使用する方法を検討するメリットがある。
マルチFPGAアプリケーションの開発とデプロイに一般的に受け入れられるフローは存在しない。
スケーラブルなマルチFPGAプラットフォームと,大規模アプリケーションをプラットフォームにマップするツールを開発しました。
論文 参考訳(メタデータ) (2024-04-24T19:25:58Z) - All-to-all reconfigurability with sparse and higher-order Ising machines [0.0]
オール・ツー・オールのネットワーク機能をエミュレートする多重アーキテクチャを導入する。
適応並列テンパリングアルゴリズムの実行は、競合するアルゴリズムと事前ファクターの利点を示す。
pビットIMのスケールされた磁気バージョンは、汎用最適化のための最先端技術よりも桁違いに改善される可能性がある。
論文 参考訳(メタデータ) (2023-11-21T20:27:02Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - An Energy-Efficient Reconfigurable Autoencoder Implementation on FPGA [5.457842083043013]
利用可能なさまざまなオートエンコーダを見て、FPGAとGPUベースの実装で畳み込みオートエンコーダを使用して、ノイズの多い静的MNIST画像を処理する。
提案手法の評価は80%の精度を実現し,実験結果から,100MHzで5.93Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現した。
論文 参考訳(メタデータ) (2023-01-17T18:04:05Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。