論文の概要: eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing
- arxiv url: http://arxiv.org/abs/2508.10370v1
- Date: Thu, 14 Aug 2025 06:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.198368
- Title: eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing
- Title(参考訳): eMamba: エッジコンピューティングにおけるMambaモデルの効率的な高速化フレームワーク
- Authors: Jiyong Kim, Jaeho Lee, Jiahao Lin, Alish Kanani, Miao Sun, Umit Y. Ogras, Jaehyun Park,
- Abstract要約: State Space Model (SSM)ベースの機械学習アーキテクチャは、最近、シーケンシャルデータを処理する上で大きな注目を集めている。
eMambaは、エッジプラットフォームにMambaモデルをデプロイするために特別に設計された、包括的なエンドツーエンドハードウェアアクセラレーションフレームワークである。
我々はeMambaが1.63-19.9$times$ lessパラメータを使って最先端技術に匹敵する精度を達成することを示した。
- 参考スコア(独自算出の注目度): 14.932572899503935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Model (SSM)-based machine learning architectures have recently gained significant attention for processing sequential data. Mamba, a recent sequence-to-sequence SSM, offers competitive accuracy with superior computational efficiency compared to state-of-the-art transformer models. While this advantage makes Mamba particularly promising for resource-constrained edge devices, no hardware acceleration frameworks are currently optimized for deploying it in such environments. This paper presents eMamba, a comprehensive end-to-end hardware acceleration framework explicitly designed for deploying Mamba models on edge platforms. eMamba maximizes computational efficiency by replacing complex normalization layers with lightweight hardware-aware alternatives and approximating expensive operations, such as SiLU activation and exponentiation, considering the target applications. Then, it performs an approximation-aware neural architecture search (NAS) to tune the learnable parameters used during approximation. Evaluations with Fashion-MNIST, CIFAR-10, and MARS, an open-source human pose estimation dataset, show eMamba achieves comparable accuracy to state-of-the-art techniques using 1.63-19.9$\times$ fewer parameters. In addition, it generalizes well to large-scale natural language tasks, demonstrating stable perplexity across varying sequence lengths on the WikiText2 dataset. We also quantize and implement the entire eMamba pipeline on an AMD ZCU102 FPGA and ASIC using GlobalFoundries (GF) 22 nm technology. Experimental results show 4.95-5.62$\times$ lower latency and 2.22-9.95$\times$ higher throughput, with 4.77$\times$ smaller area, 9.84$\times$ lower power, and 48.6$\times$ lower energy consumption than baseline solutions while maintaining competitive accuracy.
- Abstract(参考訳): State Space Model (SSM)ベースの機械学習アーキテクチャは、最近、シーケンシャルデータを処理する上で大きな注目を集めている。
最近のシーケンス・ツー・シーケンスのSSMであるMambaは、最先端のトランスフォーマーモデルと比較して、計算効率に優れた競合精度を提供する。
この利点により、Mambaはリソース制約のあるエッジデバイスに特に期待できるが、ハードウェアアクセラレーションフレームワークは現在、そのような環境にデプロイするために最適化されていない。
本稿では,エンド・ツー・エンドのハードウェアアクセラレーションフレームワークであるeMambaについて述べる。
eMambaは、複雑な正規化レイヤを軽量なハードウェア対応の代替に置き換え、SiLUアクティベーションや指数化といった高価な操作を対象のアプリケーションを考慮して近似することで、計算効率を最大化する。
そして、近似対応ニューラルアーキテクチャサーチ(NAS)を行い、近似中に使用される学習可能なパラメータをチューニングする。
オープンソースの人間のポーズ推定データセットであるFashion-MNIST、CIFAR-10、MARSによる評価は、eMambaが1.63-19.9$\times$ lessパラメータを使用して最先端技術に匹敵する精度を達成していることを示している。
さらに、大規模な自然言語タスクを一般化し、WikiText2データセット上で、さまざまなシーケンスの長さにわたる安定したパープレキシティを実証する。
我々はまた、GlobalFoundries (GF) 22nm技術を用いて、AMD ZCU102FPGAとASIC上でeMambaパイプライン全体を量子化し、実装する。
実験の結果、低レイテンシで4.95-5.62$\times$2.22-9.95$\times$高スループットで、4.77$\times$小面積で9.84$\times$低消費電力で48.6$低消費電力で競争精度を維持した。
関連論文リスト
- MambaOutRS: A Hybrid CNN-Fourier Architecture for Remote Sensing Image Classification [4.14360329494344]
リモートセンシング画像分類のための新しいハイブリッド畳み込みアーキテクチャであるMambaOutRSを紹介する。
MambaOutRSは、局所的な特徴抽出のためにスタック化されたGated CNNブロック上に構築され、新しいFourier Filter Gate (FFG)モジュールが導入されている。
論文 参考訳(メタデータ) (2025-06-24T12:20:11Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - FastMamba: A High-Speed and Efficient Mamba Accelerator on FPGA with Accurate Quantization [2.725187542894576]
本稿では,ハードウェアアルゴリズムを併用したFPGA専用アクセラレータであるFastMambaについて述べる。
具体的には,アダマール変換により線形層に対して8ビットの量子化を実現し,出力値の除去に成功した。
Mamba2-2.7Bの出力デコード実験では、FastMambaはGTX 3090 GPUの6倍のエネルギー効率を実現している。
論文 参考訳(メタデータ) (2025-05-25T04:54:53Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。