論文の概要: DFX: A Low-latency Multi-FPGA Appliance for Accelerating
Transformer-based Text Generation
- arxiv url: http://arxiv.org/abs/2209.10797v1
- Date: Thu, 22 Sep 2022 05:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 17:33:20.693152
- Title: DFX: A Low-latency Multi-FPGA Appliance for Accelerating
Transformer-based Text Generation
- Title(参考訳): DFX: トランスフォーマーベースのテキスト生成を高速化する低レイテンシマルチFPGAアプライアンス
- Authors: Seongmin Hong, Seungjae Moon, Junsoo Kim, Sungjae Lee, Minsub Kim,
Dongsoo Lee, Joo-Young Kim
- Abstract要約: 我々は,低レイテンシかつ高スループットでGPT-2モデルエンドツーエンドを実行するマルチFPGA加速度アプライアンスであるDFXを提案する。
提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を利用する。
- 参考スコア(独自算出の注目度): 7.3619135783046
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer is a deep learning language model widely used for natural
language processing (NLP) services in datacenters. Among transformer models,
Generative Pre-trained Transformer (GPT) has achieved remarkable performance in
text generation, or natural language generation (NLG), which needs the
processing of a large input context in the summarization stage, followed by the
generation stage that produces a single word at a time. The conventional
platforms such as GPU are specialized for the parallel processing of large
inputs in the summarization stage, but their performance significantly degrades
in the generation stage due to its sequential characteristic. Therefore, an
efficient hardware platform is required to address the high latency caused by
the sequential characteristic of text generation.
In this paper, we present DFX, a multi-FPGA acceleration appliance that
executes GPT-2 model inference end-to-end with low latency and high throughput
in both summarization and generation stages. DFX uses model parallelism and
optimized dataflow that is model-and-hardware-aware for fast simultaneous
workload execution among devices. Its compute cores operate on custom
instructions and provide GPT-2 operations end-to-end. We implement the proposed
hardware architecture on four Xilinx Alveo U280 FPGAs and utilize all of the
channels of the high bandwidth memory (HBM) and the maximum number of compute
resources for high hardware efficiency. DFX achieves 5.58x speedup and 3.99x
energy efficiency over four NVIDIA V100 GPUs on the modern GPT-2 model. DFX is
also 8.21x more cost-effective than the GPU appliance, suggesting that it is a
promising solution for text generation workloads in cloud datacenters.
- Abstract(参考訳): Transformerは、データセンターの自然言語処理(NLP)サービスに広く使用されているディープラーニング言語モデルである。
トランスモデルのうち、生成前学習トランス(gpt)はテキスト生成において顕著な性能を発揮しており、要約段階で大きな入力コンテキストの処理を必要とする自然言語生成(nlg)と、同時に1つの単語を生成する生成ステージがある。
従来のGPUのようなプラットフォームは、要約段階における大きな入力の並列処理に特化しているが、そのシーケンシャルな特徴から生成段階において性能は著しく低下する。
したがって、テキスト生成のシーケンシャルな特性に起因する遅延に対処するためには、効率的なハードウェアプラットフォームが必要である。
本稿では,GPT-2モデル推論をエンド・ツー・エンドで行うマルチFPGA加速度アプライアンスであるDFXについて述べる。
DFXは、モデル並列性と最適化されたデータフローを使用して、デバイス間で高速な同時ワークロード実行を実現する。
計算コアはカスタム命令で動作し、GPT-2操作をエンドツーエンドで提供する。
提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を高いハードウェア効率に活用する。
DFXは最新のGPT-2モデルで4つのNVIDIA V100 GPU上で5.58倍のスピードアップと3.99倍のエネルギー効率を達成する。
DFXはGPUアプライアンスよりも8.21倍コスト効率が高く、クラウドデータセンタのテキスト生成ワークロードに対して有望なソリューションであることを示唆している。
関連論文リスト
- FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - ProTEA: Programmable Transformer Encoder Acceleration on FPGA [0.0]
トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
論文 参考訳(メタデータ) (2024-09-21T01:44:13Z) - HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis [0.1979158763744267]
我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちLlama 2のアクセラレータを開発する。
我々はこの手法をHLSTransformと呼び、HLSで合成したFPGA設計はトークンあたりのエネルギーの最大12.75倍の削減と8.25倍の削減を実現した。
トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。
論文 参考訳(メタデータ) (2024-04-29T21:26:06Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - X-Former: In-Memory Acceleration of Transformers [7.194491150684456]
トランスフォーマーは、アテンション機構により、多種多様な自然言語処理(NLP)タスクで大きな成功を収めている。
従来のディープニューラルネットワーク(DNN)アクセラレータは、Transformerを効率的に処理する際の制限に直面している。
非揮発性メモリに基づくインメモリアクセラレータは、この課題に対する効果的な解決策となることを約束する。
我々は、NVMとCMOSの両方の処理要素からなるハイブリッドインメモリハードウェアアクセラレータであるX-Formerを紹介する。
論文 参考訳(メタデータ) (2023-03-13T21:11:54Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。