Fugu-MT 論文翻訳(概要): LightMamba: Efficient Mamba Acceleration on FPGA with Quantization and Hardware Co-design

論文の概要: LightMamba: Efficient Mamba Acceleration on FPGA with Quantization and Hardware Co-design

arxiv url: http://arxiv.org/abs/2502.15260v1
Date: Fri, 21 Feb 2025 07:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.091699
Title: LightMamba: Efficient Mamba Acceleration on FPGA with Quantization and Hardware Co-design
Title（参考訳）: LightMamba: 量子化とハードウェア共設計によるFPGA上での効率的なMamba高速化
Authors: Renjie Wei, Songqiang Xu, Linfeng Zhong, Zebin Yang, Qingyu Guo, Yuan Wang, Runsheng Wang, Meng Li,
Abstract要約: Mambaのようなステートスペースモデル(SSM)が最近注目を集めている。我々は,効率的なマンバ推定のために,量子化アルゴリズムとFPGAアクセラレータアーキテクチャを共設計するLightMambaを提案する。我々は、Xilinx Versal VCK190FPGA上にLightMambaを実装し、GPUベースラインよりも4.65倍から6.06倍高いエネルギー効率を達成する。
参考スコア（独自算出の注目度）: 13.678834244877232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State space models (SSMs) like Mamba have recently attracted much attention. Compared to Transformer-based large language models (LLMs), Mamba achieves linear computation complexity with the sequence length and demonstrates superior performance. However, Mamba is hard to accelerate due to the scattered activation outliers and the complex computation dependency, rendering existing LLM accelerators inefficient. In this paper, we propose LightMamba that co-designs the quantization algorithm and FPGA accelerator architecture for efficient Mamba inference. We first propose an FPGA-friendly post-training quantization algorithm that features rotation-assisted quantization and power-of-two SSM quantization to reduce the majority of computation to 4-bit. We further design an FPGA accelerator that partially unrolls the Mamba computation to balance the efficiency and hardware costs. Through computation reordering as well as fine-grained tiling and fusion, the hardware utilization and memory efficiency of the accelerator get drastically improved. We implement LightMamba on Xilinx Versal VCK190 FPGA and achieve 4.65x to 6.06x higher energy efficiency over the GPU baseline. When evaluated on Alveo U280 FPGA, LightMamba reaches 93 tokens/s, which is 1.43x that of the GPU baseline.
Abstract（参考訳）: Mambaのようなステートスペースモデル(SSM)が最近注目を集めている。トランスフォーマーベースの大規模言語モデル (LLM) と比較して、Mamba はシーケンス長と線形計算の複雑さを達成し、優れた性能を示す。しかし、Mambaはアクティベーションアウトレーヤの分散と複雑な計算依存のため高速化が困難であり、既存のLCMアクセラレーターは非効率である。本稿では,効率的なマンバ推定のための量子化アルゴリズムとFPGAアクセラレータアーキテクチャを共同設計するLightMambaを提案する。まず、回転支援量子化と2つのSSM量子化を特徴とするFPGAフレンドリなポストトレーニング量子化アルゴリズムを提案し、計算の大部分を4ビットに削減する。さらに、効率とハードウェアコストのバランスをとるために、Mamba計算の一部をアンロールするFPGAアクセラレータを設計する。計算の順序変更と微細なタイリングと融合により、アクセラレータのハードウェア利用とメモリ効率が大幅に向上する。我々は、Xilinx Versal VCK190FPGA上にLightMambaを実装し、GPUベースラインよりも4.65倍から6.06倍高いエネルギー効率を達成する。 Alveo U280 FPGAで評価すると、LightMambaは93トークン/秒に達し、これはGPUベースラインの1.43倍である。

関連論文リスト

MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文参考訳（メタデータ） (2024-09-21T05:25:46Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T17:08:42Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis [0.1979158763744267]
我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちLlama 2のアクセラレータを開発する。我々はこの手法をHLSTransformと呼び、HLSで合成したFPGA設計はトークンあたりのエネルギーの最大12.75倍の削減と8.25倍の削減を実現した。トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。
論文参考訳（メタデータ） (2024-04-29T21:26:06Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。 CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文参考訳（メタデータ） (2023-04-24T22:20:42Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文参考訳（メタデータ） (2022-08-10T05:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。