論文の概要: Ultra Memory-Efficient On-FPGA Training of Transformers via Tensor-Compressed Optimization
- arxiv url: http://arxiv.org/abs/2501.06663v1
- Date: Sat, 11 Jan 2025 23:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:06.951306
- Title: Ultra Memory-Efficient On-FPGA Training of Transformers via Tensor-Compressed Optimization
- Title(参考訳): テンソル圧縮最適化による変圧器の超高効率オンFPGAトレーニング
- Authors: Jiayi Tian, Jinming Lu, Hai Li, Xiangwei Wang, Cong, Hao, Ian Young, Zheng Zhang,
- Abstract要約: 本稿では,エンド・ツー・エンド・エンド・トランスフォーマー・トレーニングのための最初のFPGAアクセラレーションを提案する。
アルゴリズム側では、テンソル化変圧器訓練のための双方向の収縮流を提示する。
ハードウェア側では、高度に圧縮されたモデルパラメータと勾配情報をチップに格納する。
- 参考スコア(独自算出の注目度): 9.555456615472512
- License:
- Abstract: Transformer models have achieved state-of-the-art performance across a wide range of machine learning tasks. There is growing interest in training transformers on resource-constrained edge devices due to considerations such as privacy, domain adaptation, and on-device scientific machine learning. However, the significant computational and memory demands required for transformer training often exceed the capabilities of an edge device. Leveraging low-rank tensor compression, this paper presents the first on-FPGA accelerator for end-to-end transformer training. On the algorithm side, we present a bi-directional contraction flow for tensorized transformer training, significantly reducing the computational FLOPS and intra-layer memory costs compared to existing tensor operations. On the hardware side, we store all highly compressed model parameters and gradient information on chip, creating an on-chip-memory-only framework for each stage in training. This reduces off-chip communication and minimizes latency and energy costs. Additionally, we implement custom computing kernels for each training stage and employ intra-layer parallelism and pipe-lining to further enhance run-time and memory efficiency. Through experiments on transformer models within $36.7$ to $93.5$ MB using FP-32 data formats on the ATIS dataset, our tensorized FPGA accelerator could conduct single-batch end-to-end training on the AMD Alevo U50 FPGA, with a memory budget of less than $6$-MB BRAM and $22.5$-MB URAM. Compared to uncompressed training on the NVIDIA RTX 3090 GPU, our on-FPGA training achieves a memory reduction of $30\times$ to $51\times$. Our FPGA accelerator also achieves up to $3.6\times$ less energy cost per epoch compared with tensor Transformer training on an NVIDIA RTX 3090 GPU.
- Abstract(参考訳): Transformerモデルは、幅広い機械学習タスクで最先端のパフォーマンスを達成した。
プライバシやドメイン適応、デバイス上の科学機械学習といった考慮から、リソース制約のあるエッジデバイス上でのトランスフォーマーのトレーニングへの関心が高まっている。
しかし、トランスフォーマートレーニングに必要な計算とメモリの大幅な要求は、エッジデバイスの能力を超えることが多い。
本稿では,低ランクテンソル圧縮を活用して,エンドツーエンドのトランスフォーマートレーニングを行う最初のFPGAアクセラレータを提案する。
アルゴリズム側では、テンソル化変圧器訓練のための双方向の収縮流を示し、既存のテンソル演算と比較して計算用FLOPSと層内メモリコストを著しく削減する。
ハードウェア側では、高度に圧縮されたモデルパラメータと勾配情報をチップに格納し、トレーニングの各段階でオンチップメモリのみのフレームワークを作成する。
これにより、オフチップ通信が削減され、レイテンシとエネルギーコストが最小になる。
さらに、トレーニング段階ごとにカスタムコンピューティングカーネルを実装し、実行時間とメモリ効率をより高めるために、層内並列性とパイプライニングを用いる。
ATISデータセット上のFP-32データフォーマットを使用して、36.7ドルから93.5ドル MBのトランスフォーマーモデルの実験を通じて、我々のテンソル化されたFPGAアクセラレーターは、AMD Alevo U50 FPGAで1バッチのエンドツーエンドトレーニングを実行できる。
NVIDIA RTX 3090 GPUの非圧縮トレーニングと比較すると、FPGA上でのトレーニングは、30\times$から511\times$のメモリ削減を実現しています。
私たちのFPGAアクセラレータはまた、NVIDIA RTX 3090 GPU上のテンソルトランスフォーマートレーニングと比較して、エポックあたりのエネルギーコストを最大3.6\timesで削減します。
関連論文リスト
- A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。
FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。
最新のFPGAベースのアクセラレータと比べて1.7~2.25$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-11-27T08:53:19Z) - FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - Gated Slot Attention for Efficient Linear-Time Sequence Modeling [59.019501274074564]
Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める
GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
論文 参考訳(メタデータ) (2024-09-11T09:49:50Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis [0.1979158763744267]
我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちLlama 2のアクセラレータを開発する。
我々はこの手法をHLSTransformと呼び、HLSで合成したFPGA設計はトークンあたりのエネルギーの最大12.75倍の削減と8.25倍の削減を実現した。
トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。
論文 参考訳(メタデータ) (2024-04-29T21:26:06Z) - A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文 参考訳(メタデータ) (2024-01-05T09:32:39Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:17:23Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。