論文の概要: FastMamba: A High-Speed and Efficient Mamba Accelerator on FPGA with Accurate Quantization
- arxiv url: http://arxiv.org/abs/2505.18975v2
- Date: Wed, 28 May 2025 06:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.735517
- Title: FastMamba: A High-Speed and Efficient Mamba Accelerator on FPGA with Accurate Quantization
- Title(参考訳): FastMamba: 正確な量子化を伴うFPGA上の高速かつ効率的なMamba加速器
- Authors: Aotao Wang, Haikuo Shao, Shaobo Ma, Zhongfeng Wang,
- Abstract要約: 本稿では,ハードウェアアルゴリズムを併用したFPGA専用アクセラレータであるFastMambaについて述べる。
具体的には,アダマール変換により線形層に対して8ビットの量子化を実現し,出力値の除去に成功した。
Mamba2-2.7Bの出力デコード実験では、FastMambaはGTX 3090 GPUの6倍のエネルギー効率を実現している。
- 参考スコア(独自算出の注目度): 2.725187542894576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State Space Models (SSMs), like recent Mamba2, have achieved remarkable performance and received extensive attention. However, deploying Mamba2 on resource-constrained edge devices encounters many problems: severe outliers within the linear layer challenging the quantization, diverse and irregular element-wise tensor operations, and hardware-unfriendly nonlinear functions in the SSM block. To address these issues, this paper presents FastMamba, a dedicated accelerator on FPGA with hardware-algorithm co-design to promote the deployment efficiency of Mamba2. Specifically, we successfully achieve 8-bit quantization for linear layers through Hadamard transformation to eliminate outliers. Moreover, a hardware-friendly and fine-grained power-of-two quantization framework is presented for the SSM block and convolution layer, and a first-order linear approximation is developed to optimize the nonlinear functions. Based on the accurate algorithm quantization, we propose an accelerator that integrates parallel vector processing units, pipelined execution dataflow, and an efficient SSM Nonlinear Approximation Unit, which enhances computational efficiency and reduces hardware complexity. Finally, we evaluate FastMamba on Xilinx VC709 FPGA. For the input prefill task on Mamba2-130M, FastMamba achieves 68.80\times and 8.90\times speedup over Intel Xeon 4210R CPU and NVIDIA RTX 3090 GPU, respectively. In the output decode experiment with Mamba2-2.7B, FastMamba attains 6\times higher energy efficiency than RTX 3090 GPU.
- Abstract(参考訳): 最近のMamba2と同様、ステート・スペース・モデル(SSM)は目覚ましい性能を発揮し、広く注目を集めている。
しかし、リソース制約のあるエッジデバイスにMamba2をデプロイすることは、量子化に挑戦する線形層内の厳しい外れ値、多種多様で不規則な要素ワイドテンソル演算、SSMブロック内のハードウェア非フレンドリな非線形関数など、多くの問題に直面する。
これらの問題に対処するために,ハードウェアアルゴリズムを併用したFPGA専用アクセラレータであるFastMambaを,Mamba2のデプロイメント効率向上のために提案する。
具体的には,アダマール変換により線形層に対して8ビットの量子化を実現し,出力値の除去に成功した。
さらに、SSMブロックと畳み込み層に対して、ハードウェアフレンドリできめ細かい量子化フレームワークを示し、非線形関数を最適化するために一階線形近似を開発した。
正確なアルゴリズム量子化に基づいて,並列ベクトル処理ユニット,パイプライン実行データフロー,効率的なSSM非線形近似ユニットを統合し,計算効率を高め,ハードウェアの複雑さを低減するアクセラレータを提案する。
最後に,Xilinx VC709FPGA上でFastMambaを評価する。
Mamba2-130Mの入力プリフィルタスクでは、FastMambaはそれぞれ68.80\timesと8.90\timesをIntel Xeon 4210R CPUとNVIDIA RTX 3090 GPUで高速化する。
Mamba2-2.7Bの出力デコード実験では、FastMambaはRTX 3090 GPUよりも6倍のエネルギー効率を実現している。
関連論文リスト
- Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - LightMamba: Efficient Mamba Acceleration on FPGA with Quantization and Hardware Co-design [13.678834244877232]
Mambaのようなステートスペースモデル(SSM)が最近注目を集めている。
我々は,効率的なマンバ推定のために,量子化アルゴリズムとFPGAアクセラレータアーキテクチャを共設計するLightMambaを提案する。
我々は、Xilinx Versal VCK190FPGA上にLightMambaを実装し、GPUベースラインよりも4.65倍から6.06倍高いエネルギー効率を達成する。
論文 参考訳(メタデータ) (2025-02-21T07:23:23Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training [13.926804198202582]
Mambaは、生成AIの分野で画期的なアーキテクチャとして登場し、長いシーケンスを扱うのに顕著な習熟度を示している。
Mambaの既存のトレーニングフレームワークは、可変長シーケンス入力による非効率性を示す。
可変長シーケンスを効率的に処理する高スループットなMambaであるPackMambaを提案する。
論文 参考訳(メタデータ) (2024-08-07T16:13:43Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。