Fugu-MT 論文翻訳(概要): HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis

論文の概要: HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis

arxiv url: http://arxiv.org/abs/2405.00738v1
Date: Mon, 29 Apr 2024 21:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 20:52:21.518079
Title: HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis
Title（参考訳）: HLS変換:高レベル合成によるFPGAのエネルギー効率Llama 2推論
Authors: Andy He, Darren Key, Mason Bulling, Andrew Chang, Skyler Shapiro, Everett Lee,
Abstract要約: 我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちLlama 2のアクセラレータを開発する。我々はこの手法をHLSTransformと呼び、HLSで合成したFPGA設計はトークンあたりのエネルギーの最大12.75倍の削減と8.25倍の削減を実現した。トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。
参考スコア（独自算出の注目度）: 0.1979158763744267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphics Processing Units (GPUs) have become the leading hardware accelerator for deep learning applications and are used widely in training and inference of transformers; transformers have achieved state-of-the-art performance in many areas of machine learning and are especially used in most modern Large Language Models (LLMs). However, GPUs require large amounts of energy, which poses environmental concerns, demands high operational costs, and causes GPUs to be unsuitable for edge computing. We develop an accelerator for transformers, namely, Llama 2, an open-source state-of-the-art LLM, using high level synthesis (HLS) on Field Programmable Gate Arrays (FPGAs). HLS allows us to rapidly prototype FPGA designs without writing code at the register-transfer level (RTL). We name our method HLSTransform, and the FPGA designs we synthesize with HLS achieve up to a 12.75x reduction and 8.25x reduction in energy used per token on the Xilinx Virtex UltraScale+ VU9P FPGA compared to an Intel Xeon Broadwell E5-2686 v4 CPU and NVIDIA RTX 3090 GPU respectively, while increasing inference speeds by up to 2.46x compared to CPU and maintaining 0.53x the speed of an RTX 3090 GPU despite the GPU's 4 times higher base clock rate. With the lack of existing open-source FPGA accelerators for transformers, we open-source our code and document our steps for synthesis. We hope this work will serve as a step in democratizing the use of FPGAs in transformer inference and inspire research into energy-efficient inference methods as a whole. The code can be found on https://github.com/HLSTransform/submission.
Abstract（参考訳）: グラフィックス処理ユニット(GPU)はディープラーニングアプリケーションの主要なハードウェアアクセラレータとなり、トランスフォーマーのトレーニングや推論に広く使用されている。しかし、GPUは大量のエネルギーを必要とし、環境問題を引き起こし、高い運用コストを必要とし、エッジコンピューティングには不適当である。我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちオープンソースのLLMであるLlama 2を開発した。 HLSにより、レジスタ・トランスファーレベル(RTL)でコードを書くことなくFPGA設計を迅速にプロトタイプできる。我々はこの手法をHLSTransformと命名し、GPUの4倍のベースクロック速度にもかかわらずRTX 3090 GPUの最大2.46倍の推論速度を維持しながら、Xilinx Virtex UltraScale+VU9PFPGAのトークンあたりの12.75倍の削減と8.25倍のエネルギー削減を実現した。トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。この研究は、トランスフォーマー推論におけるFPGAの使用を民主化し、エネルギー効率のよい推論方法全般の研究を刺激するステップとして役立つことを願っている。コードはhttps://github.com/HLSTransform/submissionで確認できる。

関連論文リスト

Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。しかし、このタスクに必要なグラフ表現は密結合である傾向がある。本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文参考訳（メタデータ） (2025-07-04T23:53:47Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。 FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。最新のFPGAベースのアクセラレータと比べて1.7～2.25$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2024-11-27T08:53:19Z)
FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文参考訳（メタデータ） (2024-09-21T05:25:46Z)
Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-03-29T15:07:21Z)
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文参考訳（メタデータ） (2024-02-15T17:32:50Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation [7.3619135783046]
我々は,低レイテンシかつ高スループットでGPT-2モデルエンドツーエンドを実行するマルチFPGA加速度アプライアンスであるDFXを提案する。提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を利用する。
論文参考訳（メタデータ） (2022-09-22T05:59:59Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文参考訳（メタデータ） (2022-08-07T05:48:38Z)
FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。 FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文参考訳（メタデータ） (2020-07-16T18:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。