論文の概要: eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing
- arxiv url: http://arxiv.org/abs/2508.10370v1
- Date: Thu, 14 Aug 2025 06:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.198368
- Title: eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing
- Title(参考訳): eMamba: エッジコンピューティングにおけるMambaモデルの効率的な高速化フレームワーク
- Authors: Jiyong Kim, Jaeho Lee, Jiahao Lin, Alish Kanani, Miao Sun, Umit Y. Ogras, Jaehyun Park,
- Abstract要約: State Space Model (SSM)ベースの機械学習アーキテクチャは、最近、シーケンシャルデータを処理する上で大きな注目を集めている。
eMambaは、エッジプラットフォームにMambaモデルをデプロイするために特別に設計された、包括的なエンドツーエンドハードウェアアクセラレーションフレームワークである。
我々はeMambaが1.63-19.9$times$ lessパラメータを使って最先端技術に匹敵する精度を達成することを示した。
- 参考スコア(独自算出の注目度): 14.932572899503935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Model (SSM)-based machine learning architectures have recently gained significant attention for processing sequential data. Mamba, a recent sequence-to-sequence SSM, offers competitive accuracy with superior computational efficiency compared to state-of-the-art transformer models. While this advantage makes Mamba particularly promising for resource-constrained edge devices, no hardware acceleration frameworks are currently optimized for deploying it in such environments. This paper presents eMamba, a comprehensive end-to-end hardware acceleration framework explicitly designed for deploying Mamba models on edge platforms. eMamba maximizes computational efficiency by replacing complex normalization layers with lightweight hardware-aware alternatives and approximating expensive operations, such as SiLU activation and exponentiation, considering the target applications. Then, it performs an approximation-aware neural architecture search (NAS) to tune the learnable parameters used during approximation. Evaluations with Fashion-MNIST, CIFAR-10, and MARS, an open-source human pose estimation dataset, show eMamba achieves comparable accuracy to state-of-the-art techniques using 1.63-19.9$\times$ fewer parameters. In addition, it generalizes well to large-scale natural language tasks, demonstrating stable perplexity across varying sequence lengths on the WikiText2 dataset. We also quantize and implement the entire eMamba pipeline on an AMD ZCU102 FPGA and ASIC using GlobalFoundries (GF) 22 nm technology. Experimental results show 4.95-5.62$\times$ lower latency and 2.22-9.95$\times$ higher throughput, with 4.77$\times$ smaller area, 9.84$\times$ lower power, and 48.6$\times$ lower energy consumption than baseline solutions while maintaining competitive accuracy.
- Abstract(参考訳): State Space Model (SSM)ベースの機械学習アーキテクチャは、最近、シーケンシャルデータを処理する上で大きな注目を集めている。
最近のシーケンス・ツー・シーケンスのSSMであるMambaは、最先端のトランスフォーマーモデルと比較して、計算効率に優れた競合精度を提供する。
この利点により、Mambaはリソース制約のあるエッジデバイスに特に期待できるが、ハードウェアアクセラレーションフレームワークは現在、そのような環境にデプロイするために最適化されていない。
本稿では,エンド・ツー・エンドのハードウェアアクセラレーションフレームワークであるeMambaについて述べる。
eMambaは、複雑な正規化レイヤを軽量なハードウェア対応の代替に置き換え、SiLUアクティベーションや指数化といった高価な操作を対象のアプリケーションを考慮して近似することで、計算効率を最大化する。
そして、近似対応ニューラルアーキテクチャサーチ(NAS)を行い、近似中に使用される学習可能なパラメータをチューニングする。
オープンソースの人間のポーズ推定データセットであるFashion-MNIST、CIFAR-10、MARSによる評価は、eMambaが1.63-19.9$\times$ lessパラメータを使用して最先端技術に匹敵する精度を達成していることを示している。
さらに、大規模な自然言語タスクを一般化し、WikiText2データセット上で、さまざまなシーケンスの長さにわたる安定したパープレキシティを実証する。
我々はまた、GlobalFoundries (GF) 22nm技術を用いて、AMD ZCU102FPGAとASIC上でeMambaパイプライン全体を量子化し、実装する。
実験の結果、低レイテンシで4.95-5.62$\times$2.22-9.95$\times$高スループットで、4.77$\times$小面積で9.84$\times$低消費電力で48.6$低消費電力で競争精度を維持した。
関連論文リスト
- MambaOutRS: A Hybrid CNN-Fourier Architecture for Remote Sensing Image Classification [4.14360329494344]
リモートセンシング画像分類のための新しいハイブリッド畳み込みアーキテクチャであるMambaOutRSを紹介する。
MambaOutRSは、局所的な特徴抽出のためにスタック化されたGated CNNブロック上に構築され、新しいFourier Filter Gate (FFG)モジュールが導入されている。
論文 参考訳(メタデータ) (2025-06-24T12:20:11Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - FastMamba: A High-Speed and Efficient Mamba Accelerator on FPGA with Accurate Quantization [2.725187542894576]
本稿では,ハードウェアアルゴリズムを併用したFPGA専用アクセラレータであるFastMambaについて述べる。
具体的には,アダマール変換により線形層に対して8ビットの量子化を実現し,出力値の除去に成功した。
Mamba2-2.7Bの出力デコード実験では、FastMambaはGTX 3090 GPUの6倍のエネルギー効率を実現している。
論文 参考訳(メタデータ) (2025-05-25T04:54:53Z) - DYNAMAX: Dynamic computing for Transformers and Mamba based architectures [2.5739385355356714]
アーリーエグジット(EE)は、データサンプルに対する十分な予測信頼が達成されれば、推論を動的に終了させることで、計算コストとレイテンシを低減するための有望なアプローチを提供する。
DYNAMAXは、初期の出口機構のためにMambaアーキテクチャのユニークな特性を利用する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-04-29T16:38:15Z) - XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units [0.6063137165121326]
状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。
XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。
XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
論文 参考訳(メタデータ) (2025-02-10T17:33:30Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。