論文の概要: MambaLite-Micro: Memory-Optimized Mamba Inference on MCUs
- arxiv url: http://arxiv.org/abs/2509.05488v1
- Date: Fri, 05 Sep 2025 20:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.537288
- Title: MambaLite-Micro: Memory-Optimized Mamba Inference on MCUs
- Title(参考訳): MambaLite-Micro:MCU上のメモリ最適化Mamba推論
- Authors: Hongjun Xu, Junxi Xia, Weisi Yang, Yueyuan Sui, Stephen Xia,
- Abstract要約: 資源制約型MCU上でのMambaベースのニューラルアーキテクチャの最初の展開について述べる。
MambaLite-Microは、トレーニング済みのPyTorch Mambaモデルを、モデルウェイトを軽量なフォーマットにエクスポートすることで、オンデバイス実行にマップする。
MambaLite-Microは大きな中間テンソルを排除し、83.0%のピークメモリを削減し、平均数値誤差は1.7x10-5である。
- 参考スコア(独自算出の注目度): 1.188901646387747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Mamba models on microcontrollers (MCUs) remains challenging due to limited memory, the lack of native operator support, and the absence of embedded-friendly toolchains. We present, to our knowledge, the first deployment of a Mamba-based neural architecture on a resource-constrained MCU, a fully C-based runtime-free inference engine: MambaLite-Micro. Our pipeline maps a trained PyTorch Mamba model to on-device execution by (1) exporting model weights into a lightweight format, and (2) implementing a handcrafted Mamba layer and supporting operators in C with operator fusion and memory layout optimization. MambaLite-Micro eliminates large intermediate tensors, reducing 83.0% peak memory, while maintaining an average numerical error of only 1.7x10-5 relative to the PyTorch Mamba implementation. When evaluated on keyword spotting(KWS) and human activity recognition (HAR) tasks, MambaLite-Micro achieved 100% consistency with the PyTorch baselines, fully preserving classification accuracy. We further validated portability by deploying on both ESP32S3 and STM32H7 microcontrollers, demonstrating consistent operation across heterogeneous embedded platforms and paving the way for bringing advanced sequence models like Mamba to real-world resource-constrained applications.
- Abstract(参考訳): マイクロコントローラ(MCU)にMambaモデルをデプロイすることは、メモリの制限、ネイティブオペレータサポートの欠如、組込みツールチェーンの欠如など、依然として困難である。
我々は、我々の知る限り、完全にCベースのランタイムフリー推論エンジンであるMCU(MumbaLite-Micro)に、Mambaベースのニューラルアーキテクチャを初めてデプロイした。
パイプラインは,トレーニング済みのPyTorch Mambaモデルを,(1)モデルウェイトを軽量なフォーマットにエクスポートし,(2)手作りのMamba層を実装し,演算子融合とメモリレイアウトの最適化によりC言語で演算子をサポートすることにより,オンデバイス実行にマップする。
MambaLite-Microは大きな中間テンソルを排除し、83.0%のピークメモリを削減し、PyTorch Mambaの実装と比較して平均1.7x10-5の数値誤差を保っている。
キーワードスポッティング(KWS)とヒューマンアクティビティ認識(HAR)タスクで評価すると、MambaLite-MicroはPyTorchベースラインと100%整合し、分類精度を完全に保存した。
ESP32S3とSTM32H7の両方のマイクロコントローラをデプロイし、不均一な組み込みプラットフォーム上で一貫した動作を示し、Mambaのような先進的なシーケンスモデルを現実世界のリソース制約のあるアプリケーションに導入する方法を明らかにすることにより、ポータビリティをさらに検証した。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - Sparse Mamba: Introducing Controllability, Observability, And Stability To Structural State Space Models [2.6353853440763118]
提案するS-Mambaにおいて,元のMamba SSMアーキテクチャに可制御性と可観測性の概念を導入する。
従来のMambaアーキテクチャの可制御性と可観測性を強化した上で, 難易度を5%改善し, トレーニング時間を3%短縮した。
論文 参考訳(メタデータ) (2024-08-31T23:25:12Z) - MambaMIM: Pre-training Mamba with State Space Token Interpolation and its Application to Medical Image Segmentation [23.67774523461722]
我々はMambaMIMと呼ばれる汎用的な事前学習フレームワークを提案する。
MambaMIMはマスキングシーケンス内の状態空間の因果関係を学習する。
我々は6.8KCTの大規模データセットでMambaMIMを事前訓練する。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [3.441021278275805]
Mamba State-space Model (SSM)は、最近、最先端(SOTA)変換言語モデル(LLM)よりも優れています。
我々は,MPFTとPEFTの組み合わせによって導入された変化に対して,マンバLLMは極めて安定であることを示す。
我々は,MPFTとPEFTを用いて,自然言語タスクにおけるマンバLLMの文脈内学習能力を新たに研究する。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。