論文の概要: Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators
- arxiv url: http://arxiv.org/abs/2305.18332v1
- Date: Wed, 24 May 2023 16:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:20:59.050833
- Title: Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators
- Title(参考訳): 深層学習加速器のための再構成可能な分散FPGAクラスタ設計
- Authors: Hans Johnson, Tianyang Fang, Alejandro Perez-Vicente, and Jafar Saniie
- Abstract要約: エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
- 参考スコア(独自算出の注目度): 59.11160990637615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a distributed system based on lowpower embedded FPGAs designed for
edge computing applications focused on exploring distributing scheduling
optimizations for Deep Learning (DL) workloads to obtain the best performance
regarding latency and power efficiency. Our cluster was modular throughout the
experiment, and we have implementations that consist of up to 12 Zynq-7020
chip-based boards as well as 5 UltraScale+ MPSoC FPGA boards connected through
an ethernet switch, and the cluster will evaluate configurable Deep Learning
Accelerator (DLA) Versatile Tensor Accelerator (VTA). This adaptable
distributed architecture is distinguished by its capacity to evaluate and
manage neural network workloads in numerous configurations which enables users
to conduct multiple experiments tailored to their specific application needs.
The proposed system can simultaneously execute diverse Neural Network (NN)
models, arrange the computation graph in a pipeline structure, and manually
allocate greater resources to the most computationally intensive layers of the
NN graph.
- Abstract(参考訳): 本稿では,ディープラーニング(DL)ワークロードのスケジューリング最適化の分散化を目的としたエッジコンピューティングアプリケーションを対象とした,低消費電力組み込みFPGAに基づく分散システムを提案する。
我々のクラスタは実験を通じてモジュール化されており、最大12個のZynq-7020チップベースのボードと、イーサネットスイッチを介して接続されたUltraScale+MPSoC FPGAボードで構成される実装があり、クラスタは構成可能なDeep Learning Accelerator (DLA) Versatile Tensor Accelerator (VTA)を評価する。
この適応可能な分散アーキテクチャは、ニューラルネットワークのワークロードを多数の構成で評価し、管理する能力によって区別される。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造に計算グラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
関連論文リスト
- LUTMUL: Exceed Conventional FPGA Roofline Limit by LUT-based Efficient Multiplication for Neural Network Inference [25.342107763021147]
本稿では、LUTMULを導入し、LUT(ルックアップテーブル)のポテンシャルを利用して乗算を行う。
LUTのこの利点を生かして,FPGAベースのニューラルネットワークアクセラレータの性能向上の可能性を実証する。
論文 参考訳(メタデータ) (2024-11-01T02:54:11Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Harnessing FPGA Technology for Enhanced Biomedical Computation [0.0]
この研究は、CNN、Recurrent Neural Networks (RNN)、Long Short-Term Memory Networks (LSTMs)、Deep Belief Networks (DBNs)のような洗練されたニューラルネットワークフレームワークを掘り下げる。
レイテンシやスループットなどの性能指標を評価することにより,高度なバイオメディカルコンピューティングにおけるFPGAの有効性を示す。
論文 参考訳(メタデータ) (2023-11-21T08:51:58Z) - Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。
我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。
この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文 参考訳(メタデータ) (2023-07-16T01:20:17Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based
Heterogeneous Computing Cores [26.38812379700231]
FPGAを用いたニューラルネットワーク高速化のための異種計算システムを開発した。
提案するアクセラレータは、DSPとLUTをベースとしたGEMM(GEneral Matrix-Multiplication)コンピューティングコアで構成されている。
我々の設計では、最新のMix&Match設計よりも遅延が1.12-1.32x削減され、推論精度が向上した。
論文 参考訳(メタデータ) (2021-12-15T15:12:00Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。