論文の概要: The Feasibility of Implementing Large-Scale Transformers on Multi-FPGA Platforms
- arxiv url: http://arxiv.org/abs/2404.16158v1
- Date: Wed, 24 Apr 2024 19:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 16:02:40.919654
- Title: The Feasibility of Implementing Large-Scale Transformers on Multi-FPGA Platforms
- Title(参考訳): マルチFPGAプラットフォームにおける大規模変圧器実装の可能性
- Authors: Yu Gao, Juan Camilo Vega, Paul Chow,
- Abstract要約: 大規模機械学習アプリケーションに複数のFPGAを使用する方法を検討するメリットがある。
マルチFPGAアプリケーションの開発とデプロイに一般的に受け入れられるフローは存在しない。
スケーラブルなマルチFPGAプラットフォームと,大規模アプリケーションをプラットフォームにマップするツールを開発しました。
- 参考スコア(独自算出の注目度): 1.0636475069923585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: FPGAs are rarely mentioned when discussing the implementation of large machine learning applications, such as Large Language Models (LLMs), in the data center. There has been much evidence showing that single FPGAs can be competitive with GPUs in performance for some computations, especially for low latency, and often much more efficient when power is considered. This suggests that there is merit to exploring the use of multiple FPGAs for large machine learning applications. The challenge with using multiple FPGAs is that there is no commonly-accepted flow for developing and deploying multi-FPGA applications, i.e., there are no tools to describe a large application, map it to multiple FPGAs and then deploy the application on a multi-FPGA platform. In this paper, we explore the feasibility of implementing large transformers using multiple FPGAs by developing a scalable multi-FPGA platform and some tools to map large applications to the platform. We validate our approach by designing an efficient multi-FPGA version of the I-BERT transformer and implement one encoder using six FPGAs as a working proof-of-concept to show that our platform and tools work. Based on our proof-of-concept prototype and the estimations of performance using the latest FPGAs compared to GPUs, we conclude that there can be a place for FPGAs in the world of large machine learning applications. We demonstrate a promising first step that shows that with the right infrastructure and tools it is reasonable to continue to explore the possible benefits of using FPGAs for applications such as LLMs.
- Abstract(参考訳): FPGAは、データセンターでLarge Language Models (LLMs)のような大規模な機械学習アプリケーションの実装について議論する際に、ほとんど言及されない。
単一のFPGAがGPUと性能の競争力を持つことを示す多くの証拠があり、特に低レイテンシで、電力を考慮した場合の方がはるかに効率的である。
このことは、大規模機械学習アプリケーションに複数のFPGAを使うことを探求するメリットがあることを示唆している。
複数のFPGAを使用する場合の課題は、マルチFPGAアプリケーションの開発とデプロイに一般的に受け入れられるフローがない、すなわち、大きなアプリケーションを記述し、複数のFPGAにマップし、マルチFPGAプラットフォームにアプリケーションをデプロイするツールがないことである。
本稿では,スケーラブルなマルチFPGAプラットフォームと大規模アプリケーションをプラットフォームにマップするツールを開発することにより,複数のFPGAを用いた大規模トランスフォーマーの実現の可能性を検討する。
I-BERTトランスの効率的なマルチFPGAバージョンを設計し、6つのFPGAを概念実証として1つのエンコーダを実装することで、我々のプラットフォームとツールが動作することを示す。
概念実証のプロトタイプと最新のFPGAを用いたGPUの性能評価に基づいて、大規模機械学習アプリケーションの世界にはFPGAの場所が存在すると結論付けている。
我々は、適切なインフラストラクチャとツールで、LLMのようなアプリケーションにFPGAを使用することの可能なメリットを引き続き探求することが妥当であることを示す、有望な第一歩を実証する。
関連論文リスト
- Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - ACCL+: an FPGA-Based Collective Engine for Distributed Applications [8.511142540352665]
ACCL+(ACCL+)は、FPGAベースの集合通信ライブラリである。
さまざまなプラットフォームに移植可能で、UDP、TCP、RDMAをサポートする。
CPUアプリケーションの集合的なオフロードエンジンとして機能し、CPUをネットワークタスクから解放する。
本稿では、CPUベースのベクトル行列乗算を分散するための集合オフロードエンジンとしてシームレスに統合し、FPGAベースの分散ディープラーニングレコメンデーションを設計するための重要かつ効率的なコンポーネントとして機能するACCL+の2つのユースケースを紹介する。
論文 参考訳(メタデータ) (2023-12-18T22:56:01Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。
我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。
ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文 参考訳(メタデータ) (2022-06-23T15:57:17Z) - An FPGA-based Solution for Convolution Operation Acceleration [0.0]
本稿では,畳み込み動作を高速化するFPGAアーキテクチャを提案する。
プロジェクトの目的は、一度に畳み込み層を処理できるFPGA IPコアを作成することである。
論文 参考訳(メタデータ) (2022-06-09T14:12:30Z) - FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient
Package for Federated Graph Learning [65.48760613529033]
フェデレートグラフ学習(FGL)は、その特徴と要求のため、十分にサポートされていない。
まず、使い易いFGLパッケージを作成する際の課題について議論し、実装済みのFederatedScope-GNN(FS-G)を提示する。
我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。
論文 参考訳(メタデータ) (2022-04-12T06:48:06Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices [6.335302509003343]
マルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。
このフレームワークは、マージン伝播(MP)技術に基づいて、ピースワイズ線形(PWL)近似を使用する。
本研究では,FPGA(Field Programmable Gate Array)プラットフォーム向けに最適化されたハードウェアフレンドリーなMPベースの推論とオンライントレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。