論文の概要: Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml
- arxiv url: http://arxiv.org/abs/2409.05207v1
- Date: Sun, 8 Sep 2024 19:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:58:34.068486
- Title: Low Latency Transformer Inference on FPGAs for Physics Applications with hls4ml
- Title(参考訳): hls4mlの物理応用のためのFPGAの低レイテンシトランスフォーマー推論
- Authors: Zhixing Jiang, Dennis Yin, Yihui Chen, Elham E Khoda, Scott Hauck, Shih-Chieh Hsu, Ekaterina Govorkova, Philip Harris, Vladimir Loncar, Eric A. Moreno,
- Abstract要約: 本研究では, hls4ml を用いたフィールドプログラミング可能なゲートアレー (FPGA) におけるトランスフォーマアーキテクチャの効率的な実装を提案する。
VU13P FPGAチップへの展開は2us未満の達成であり、リアルタイムアプリケーションの可能性を示している。
- 参考スコア(独自算出の注目度): 2.6892725687961394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents an efficient implementation of transformer architectures in Field-Programmable Gate Arrays(FPGAs) using hls4ml. We demonstrate the strategy for implementing the multi-head attention, softmax, and normalization layer and evaluate three distinct models. Their deployment on VU13P FPGA chip achieved latency less than 2us, demonstrating the potential for real-time applications. HLS4ML compatibility with any TensorFlow-built transformer model further enhances the scalability and applicability of this work. Index Terms: FPGAs, machine learning, transformers, high energy physics, LIGO
- Abstract(参考訳): 本研究では, hls4ml を用いたフィールドプログラミング可能なゲートアレー (FPGA) におけるトランスフォーマアーキテクチャの効率的な実装を提案する。
マルチヘッドアテンション、ソフトマックス、正規化層の実装戦略を実証し、3つの異なるモデルを評価する。
VU13P FPGAチップへのデプロイメントは2us未満のレイテンシを実現し、リアルタイムアプリケーションの可能性を示した。
HLS4MLとTensorFlowで構築されたトランスフォーマーモデルとの互換性により、この作業のスケーラビリティと適用性はさらに向上する。
インデックス用語:FPGA、機械学習、トランスフォーマー、高エネルギー物理学、LIGO
関連論文リスト
- Ultra Fast Transformers on FPGAs for Particle Physics Experiments [2.666074491398626]
本研究では、FPGA(Field-Programmable Gate Array)上でのトランスフォーマーアーキテクチャの高効率実装を提案する。
我々は,マルチヘッドアテンションやソフトマックス層などのトランスフォーマーモデルの重要なコンポーネントを実装した。
CERNのハードウェアトリガ要件と互換性のあるXilinx UltraScale+ FPGA上で,レイテンシを2$mu$sで記録した。
論文 参考訳(メタデータ) (2024-02-01T22:32:39Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z) - Fast inference of Boosted Decision Trees in FPGAs for particle physics [11.99846367249951]
本稿では, hls4mlライブラリにおけるブースト決定木の実装について述べる。
完全なオンチップ実装のおかげで、hls4mlは極めて低レイテンシでBoosted Decision Treeモデルの推論を実行する。
このソリューションは、コライダー実験のLevel-1 TriggerシステムのようなFPGAベースのリアルタイム処理に適している。
論文 参考訳(メタデータ) (2020-02-05T12:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。