論文の概要: ACCL+: an FPGA-Based Collective Engine for Distributed Applications
- arxiv url: http://arxiv.org/abs/2312.11742v1
- Date: Mon, 18 Dec 2023 22:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:33:06.241683
- Title: ACCL+: an FPGA-Based Collective Engine for Distributed Applications
- Title(参考訳): ACCL+:分散アプリケーションのためのFPGAベースの集合エンジン
- Authors: Zhenhao He, Dario Korolija, Yu Zhu, Benjamin Ramhorst, Tristan Laan,
Lucian Petrica, Michaela Blott, Gustavo Alonso
- Abstract要約: ACCL+(ACCL+)は、FPGAベースの集合通信ライブラリである。
さまざまなプラットフォームに移植可能で、UDP、TCP、RDMAをサポートする。
CPUアプリケーションの集合的なオフロードエンジンとして機能し、CPUをネットワークタスクから解放する。
本稿では、CPUベースのベクトル行列乗算を分散するための集合オフロードエンジンとしてシームレスに統合し、FPGAベースの分散ディープラーニングレコメンデーションを設計するための重要かつ効率的なコンポーネントとして機能するACCL+の2つのユースケースを紹介する。
- 参考スコア(独自算出の注目度): 8.511142540352665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: FPGAs are increasingly prevalent in cloud deployments, serving as Smart NICs
or network-attached accelerators. Despite their potential, developing
distributed FPGA-accelerated applications remains cumbersome due to the lack of
appropriate infrastructure and communication abstractions. To facilitate the
development of distributed applications with FPGAs, in this paper we propose
ACCL+, an open-source versatile FPGA-based collective communication library.
Portable across different platforms and supporting UDP, TCP, as well as RDMA,
ACCL+ empowers FPGA applications to initiate direct FPGA-to-FPGA collective
communication. Additionally, it can serve as a collective offload engine for
CPU applications, freeing the CPU from networking tasks. It is user-extensible,
allowing new collectives to be implemented and deployed without having to
re-synthesize the FPGA circuit. We evaluated ACCL+ on an FPGA cluster with 100
Gb/s networking, comparing its performance against software MPI over RDMA. The
results demonstrate ACCL+'s significant advantages for FPGA-based distributed
applications and highly competitive performance for CPU applications. We
showcase ACCL+'s dual role with two use cases: seamlessly integrating as a
collective offload engine to distribute CPU-based vector-matrix multiplication,
and serving as a crucial and efficient component in designing fully FPGA-based
distributed deep-learning recommendation inference.
- Abstract(参考訳): FPGAは、スマートNICやネットワーク対応アクセラレータとして、クラウドデプロイメントでますます普及している。
その可能性にもかかわらず、適切なインフラストラクチャや通信抽象化が欠如しているため、FPGAが加速する分散アプリケーションの開発は困難である。
本稿では,FPGAを用いた分散アプリケーションの開発を容易にするために,オープンソースの汎用FPGAベースの集合通信ライブラリACCL+を提案する。
様々なプラットフォームに移植可能で、UDP、TCP、RDMAをサポートするACCL+はFPGAアプリケーションにFPGAとFPGAの直接通信を開始する権限を与える。
さらに、CPUアプリケーションの集合的なオフロードエンジンとして機能し、CPUがネットワークタスクから解放される。
ユーザ拡張性があり、FPGA回路を再合成することなく、新しい集合体を実装、デプロイすることができる。
我々は,100Gb/sのFPGAクラスタ上でACCL+を評価し,その性能をRDMA上のソフトウェアMPIと比較した。
この結果から,FPGAベースの分散アプリケーションではACCL+が大きな優位性を示し,CPUアプリケーションでは高い競合性能を示した。
本稿では、CPUベースのベクトル行列乗算を分散するための集合オフロードエンジンとしてシームレスに統合し、FPGAベースの分散ディープラーニングレコメンデーションを設計するための重要かつ効率的なコンポーネントとして機能するACCL+の2つのユースケースを紹介する。
関連論文リスト
- Hacking the Fabric: Targeting Partial Reconfiguration for Fault Injection in FPGA Fabrics [2.511032692122208]
本稿では,FPGA再構成の過程において,部分ビットストリームに持続的障害注入を生じさせる新しいフォールト攻撃手法を提案する。
この攻撃は電力浪費を利用しており、リコンフィグレーションマネージャを通じてFPGAにロードされるときにビットストリームに障害を注入する。
論文 参考訳(メタデータ) (2024-10-21T20:40:02Z) - Efficient Edge AI: Deploying Convolutional Neural Networks on FPGA with the Gemmini Accelerator [0.5714074111744111]
我々は、Gemminiアクセラレーターを用いて、FPGA(Field Programmable Gate Arrays)上にCNNを配置するためのエンドツーエンドワークフローを提示する。
Xilinx ZCU102 FPGA 上で YOLOv7 モデルを36.5 GOP/s/W のエネルギー効率で実装することにより,リアルタイムな性能を実現することができた。
論文 参考訳(メタデータ) (2024-08-14T09:24:00Z) - The Feasibility of Implementing Large-Scale Transformers on Multi-FPGA Platforms [1.0636475069923585]
大規模機械学習アプリケーションに複数のFPGAを使用する方法を検討するメリットがある。
マルチFPGAアプリケーションの開発とデプロイに一般的に受け入れられるフローは存在しない。
スケーラブルなマルチFPGAプラットフォームと,大規模アプリケーションをプラットフォームにマップするツールを開発しました。
論文 参考訳(メタデータ) (2024-04-24T19:25:58Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z) - FFCNN: Fast FPGA based Acceleration for Convolution neural network
inference [0.0]
畳み込みニューラルネットワーク(FFCNN)のためのFPGAの高速推論について述べる。
FFCNNは、深くパイプライン化されたOpenCLカーネルアーキテクチャに基づいている。
データ再利用とタスクマッピング技術も設計効率を向上させるために提案されている。
論文 参考訳(メタデータ) (2022-08-28T16:55:25Z) - An FPGA-based Solution for Convolution Operation Acceleration [0.0]
本稿では,畳み込み動作を高速化するFPGAアーキテクチャを提案する。
プロジェクトの目的は、一度に畳み込み層を処理できるFPGA IPコアを作成することである。
論文 参考訳(メタデータ) (2022-06-09T14:12:30Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。