論文の概要: Enabling Efficient and Flexible FPGA Virtualization for Deep Learning in
the Cloud
- arxiv url: http://arxiv.org/abs/2003.12101v1
- Date: Thu, 26 Mar 2020 18:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:33:02.863416
- Title: Enabling Efficient and Flexible FPGA Virtualization for Deep Learning in
the Cloud
- Title(参考訳): クラウドにおけるディープラーニングのための効率的なフレキシブルFPGA仮想化
- Authors: Shulin Zeng, Guohao Dai, Hanbo Sun, Kai Zhong, Guangjun Ge, Kaiyuan
Guo, Yu Wang, Huazhong Yang
- Abstract要約: FPGAは、ディープニューラルネットワーク(DNN)推論アプリケーションに低レイテンシでエネルギー効率のソリューションを提供する大きな可能性を示している。
現在、クラウド上のFPGAベースのDNNアクセラレータのほとんどは、複数のユーザがひとつのFPGAを共有するために、タイムディビジョンの多重化方式で実行されており、$sim$100 sオーバーヘッドで再コンパイルする必要がある。
- 参考スコア(独自算出の注目度): 13.439004162406063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: FPGAs have shown great potential in providing low-latency and
energy-efficient solutions for deep neural network (DNN) inference
applications. Currently, the majority of FPGA-based DNN accelerators in the
cloud run in a time-division multiplexing way for multiple users sharing a
single FPGA, and require re-compilation with $\sim$100 s overhead. Such designs
lead to poor isolation and heavy performance loss for multiple users, which are
far away from providing efficient and flexible FPGA virtualization for neither
public nor private cloud scenarios.
To solve these problems, we introduce a novel virtualization framework for
instruction architecture set (ISA) based on DNN accelerators by sharing a
single FPGA. We enable the isolation by introducing a two-level instruction
dispatch module and a multi-core based hardware resources pool. Such designs
provide isolated and runtime-programmable hardware resources, further leading
to performance isolation for multiple users. On the other hand, to overcome the
heavy re-compilation overheads, we propose a tiling-based instruction frame
package design and two-stage static-dynamic compilation. Only the light-weight
runtime information is re-compiled with $\sim$1 ms overhead, thus the
performance is guaranteed for the private cloud. Our extensive experimental
results show that the proposed virtualization design achieves 1.07-1.69x and
1.88-3.12x throughput improvement over previous static designs using the
single-core and the multi-core architectures, respectively.
- Abstract(参考訳): FPGAは、ディープニューラルネットワーク(DNN)推論アプリケーションに低レイテンシでエネルギー効率のソリューションを提供する大きな可能性を示している。
現在、クラウド上のFPGAベースのDNNアクセラレータのほとんどは、複数のユーザがひとつのFPGAを共有するために、タイムディビジョンの多重化方式で実行されており、$\sim$100 sオーバーヘッドで再コンパイルする必要がある。
このような設計は、複数のユーザにとって、分離性やパフォーマンスの低下を招き、パブリックでもプライベートでも、効率的なFPGA仮想化を提供するには程遠い。
これらの問題を解決するために,DNNアクセラレータをベースとした命令アーキテクチャセット(ISA)を1つのFPGAで共有する新しい仮想化フレームワークを提案する。
本研究では,2レベル命令ディスパッチモジュールとマルチコアハードウェアリソースプールを導入することで,分離を可能にする。
このような設計は、独立した実行時プログラム可能なハードウェアリソースを提供し、さらに複数のユーザのパフォーマンスを分離する。
一方,重大な再コンパイルオーバーヘッドを克服するために,タイリングベースの命令フレームパッケージ設計と2段階静的動的コンパイルを提案する。
軽量なランタイム情報のみが$\sim$1msのオーバーヘッドで再コンパイルされるため、プライベートクラウドのパフォーマンスが保証される。
提案した仮想化設計は,従来の静的設計よりも1.07-1.69xと1.88-3.12xのスループット向上を実現している。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA
Accelerator Architecture for Accelerating Convolutional Neural Network
Inference in Cloud/Edge Computing [8.826181951806928]
Systolic-CNNはOpenCLで定義されたスケーラブルでランタイムフレキシブルなFPGAアクセラレータアーキテクチャである。
Systolic-CNNは、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化されている。
論文 参考訳(メタデータ) (2020-12-06T03:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。