論文の概要: Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on Edge Devices
- arxiv url: http://arxiv.org/abs/2412.09289v1
- Date: Thu, 12 Dec 2024 13:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:35.022744
- Title: Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on Edge Devices
- Title(参考訳): 変圧器とマンバモデルの量子化と蒸留によるTinyMLの最適化
- Authors: Thanaphon Suwannaphong, Ferdian Jovan, Ian Craddock, Ryan McConville,
- Abstract要約: 本稿では,資源制約エッジデバイスのための小型かつ効率的な機械学習モデル(TinyML)を提案する。
この研究は、量子化と知識蒸留を含むモデル圧縮技術に焦点を当て、モデルサイズを大幅に削減する。
これらのTinyMLモデルの医療への応用は、患者のモニタリングに革命をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 7.229732269884237
- License:
- Abstract: This paper proposes small and efficient machine learning models (TinyML) for resource-constrained edge devices, specifically for on-device indoor localisation. Typical approaches for indoor localisation rely on centralised remote processing of data transmitted from lower powered devices such as wearables. However, there are several benefits for moving this to the edge device itself, including increased battery life, enhanced privacy, reduced latency and lowered operational costs, all of which are key for common applications such as health monitoring. The work focuses on model compression techniques, including quantization and knowledge distillation, to significantly reduce the model size while maintaining high predictive performance. We base our work on a large state-of-the-art transformer-based model and seek to deploy it within low-power MCUs. We also propose a state-space-based architecture using Mamba as a more compact alternative to the transformer. Our results show that the quantized transformer model performs well within a 64 KB RAM constraint, achieving an effective balance between model size and localisation precision. Additionally, the compact Mamba model has strong performance under even tighter constraints, such as a 32 KB of RAM, without the need for model compression, making it a viable option for more resource-limited environments. We demonstrate that, through our framework, it is feasible to deploy advanced indoor localisation models onto low-power MCUs with restricted memory limitations. The application of these TinyML models in healthcare has the potential to revolutionize patient monitoring by providing accurate, real-time location data while minimizing power consumption, increasing data privacy, improving latency and reducing infrastructure costs.
- Abstract(参考訳): 本稿では、リソース制約のあるエッジデバイス、特にオンデバイス屋内ローカライゼーションのための、小型で効率的な機械学習モデル(TinyML)を提案する。
屋内ローカライゼーションの典型的なアプローチは、ウェアラブルなどの低出力デバイスから送信されるデータの集中的なリモート処理に依存している。
しかし、これをエッジデバイスに移行するメリットには、バッテリー寿命の向上、プライバシーの向上、レイテンシの低減、運用コストの削減など、いくつかのものがある。
この研究は、高い予測性能を維持しながら、モデルサイズを大幅に削減するために、量子化や知識蒸留を含むモデル圧縮技術に焦点を当てている。
私たちは、最先端のトランスフォーマーベースの大規模なモデルに基づいて、低消費電力のMCUにデプロイしようとしています。
また, コンバータのよりコンパクトな代替として, Mamba を用いた状態空間型アーキテクチャを提案する。
以上の結果から,64KBのRAM制約で量子化トランスフォーマーモデルの性能が向上し,モデルサイズと局所化精度のバランスが良好であることが示唆された。
さらに、コンパクトなMambaモデルは、モデル圧縮を必要とせず、32KBのRAMなど、より厳しい制約の下で強力なパフォーマンスを持ち、リソース制限のある環境でも実行可能な選択肢となっている。
我々は,我々のフレームワークを通じて,メモリ制限を制限した低消費電力のMCUに,高度な屋内ローカライゼーションモデルをデプロイすることが可能であることを実証した。
これらのTinyMLモデルの医療への応用は、消費電力を最小化し、データのプライバシを高め、レイテンシを改善し、インフラストラクチャコストを削減しながら、正確なリアルタイム位置情報を提供することによって、患者の監視に革命をもたらす可能性がある。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Resource-Efficient Transformer Architecture: Optimizing Memory and Execution Time for Real-Time Applications [0.1874930567916036]
本稿では,メモリ使用量と実行時間を大幅に削減するメモリ効率変換器モデルについて述べる。
その結果、メモリ使用量の52%削減と実行時間の33%削減が達成され、最先端モデルよりも効率が向上した。
論文 参考訳(メタデータ) (2024-12-25T14:41:23Z) - PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-10-05T03:37:07Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - MicroNets: Neural Network Architectures for Deploying TinyML
Applications on Commodity Microcontrollers [18.662026553041937]
リソース制約付きマイクロコントローラ(MCU)による機械学習は、IoT(Internet of Things)のアプリケーション領域を大幅に拡大することを約束する
TinyMLは、ディープニューラルネットワーク推論が大きな計算とメモリの予算を必要とするため、深刻な技術的課題を提示している。
ニューラルネットワークサーチ(NAS)は、厳密なMCUメモリ、レイテンシ、エネルギー制約を満たす正確なMLモデルの設計を支援する。
論文 参考訳(メタデータ) (2020-10-21T19:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。