Fugu-MT 論文翻訳(概要): Towards Machine Learning and Inference for Resource-constrained MCUs

論文の概要: Towards Machine Learning and Inference for Resource-constrained MCUs

arxiv url: http://arxiv.org/abs/2305.18954v1
Date: Tue, 30 May 2023 11:39:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 16:41:07.858070
Title: Towards Machine Learning and Inference for Resource-constrained MCUs
Title（参考訳）: 資源制約型mcuの機械学習と推論
Authors: Yushan Huang, Hamed Haddadi
Abstract要約: マイクロコントローラ(MCU)のための,バッテリフリー機械学習(ML)推論とモデルパーソナライズパイプラインを提案する。一例として,海洋における魚の画像認識を行った。その結果,MCU上でのバッテリフリーML推論の可能性が示唆された。
参考スコア（独自算出の注目度）: 5.30485792198213
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) is moving towards edge devices. However, ML models with high computational demands and energy consumption pose challenges for ML inference in resource-constrained environments, such as the deep sea. To address these challenges, we propose a battery-free ML inference and model personalization pipeline for microcontroller units (MCUs). As an example, we performed fish image recognition in the ocean. We evaluated and compared the accuracy, runtime, power, and energy consumption of the model before and after optimization. The results demonstrate that, our pipeline can achieve 97.78% accuracy with 483.82 KB Flash, 70.32 KB RAM, 118 ms runtime, 4.83 mW power, and 0.57 mJ energy consumption on MCUs, reducing by 64.17%, 12.31%, 52.42%, 63.74%, and 82.67%, compared to the baseline. The results indicate the feasibility of battery-free ML inference on MCUs.
Abstract（参考訳）: 機械学習(ML)はエッジデバイスに向かっている。しかし、高い計算要求とエネルギー消費を持つMLモデルは、深海のような資源制約のある環境でML推論に挑戦する。これらの課題に対処するために、マイクロコントローラユニット(MCU)のための電池レスML推論とモデルパーソナライズパイプラインを提案する。一例として,海洋における魚の画像認識を行った。我々は,最適化前後のモデルの精度,実行時,電力,エネルギー消費量を評価し,比較した。その結果,483.82kbフラッシュ,70.32kb ram,118msランタイム,4.83mw電力,0.57mjエネルギー消費で97.78%の精度を達成でき,ベースラインと比較して64.17%,12.31%,52.42%,63.74%,82.67%削減できた。その結果,MCU上でのバッテリフリーML推論の可能性が示唆された。

関連論文リスト

Energy-Efficient Deep Learning for Traffic Classification on Microcontrollers [1.3124513975412255]
本稿では,資源限定マイクロコントローラ上でのエネルギー効率の高いトラフィック分類のための実用的なディープラーニング(DL)手法を提案する。 ISCX VPN-Non-VPNデータセット上で96.59%の精度を実現するハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)により最適化された軽量な1D-CNNを開発する。 2つのマイクロコントローラにおける実世界の推論性能を評価する。
論文参考訳（メタデータ） (2025-06-12T16:10:22Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文参考訳（メタデータ） (2024-09-18T17:00:20Z)
Optimizing TinyML: The Impact of Reduced Data Acquisition Rates for Time Series Classification on Microcontrollers [6.9604565273682955]
本稿では,時系列分類におけるデータ取得率の低減がTinyMLモデルに与える影響について検討する。データサンプリング頻度を下げることで、RAM使用量、エネルギー消費、レイテンシ、MAC操作を約4倍に削減することを目指している。
論文参考訳（メタデータ） (2024-09-17T07:21:49Z)
Exploring the Boundaries of On-Device Inference: When Tiny Falls Short, Go Hierarchical [4.211747495359569]
Hierarchical Inference (HI)システムは、選択したサンプルをエッジサーバやクラウドにオフロードして、リモートML推論を行う。本稿では, HIの精度, レイテンシ, エネルギーの測定値に基づいて, デバイス上での推論性能を系統的に比較する。
論文参考訳（メタデータ） (2024-07-10T16:05:43Z)
SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。 SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文参考訳（メタデータ） (2024-04-04T15:23:14Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文参考訳（メタデータ） (2022-06-15T20:44:23Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
Trimming Feature Extraction and Inference for MCU-based Edge NILM: a Systematic Approach [14.491636333680297]
非侵入負荷モニタリング(NILM)は、複数の負荷のグローバルな電力消費を、単一のスマート電気メーターから、アプライアンスレベルの詳細に分解することを可能にする。 State-of-the-Artアプローチは機械学習手法に基づいており、電流と電圧センサーからの時間領域と周波数領域の機能の融合を利用する。低レイテンシNILMを低コストでリソース制約のあるMCUベースのメーターで実行することは、現在オープンな課題である。本稿では,特徴空間の最適化と,ステート・オブ・ザ・ステートの実行に必要な計算・記憶コストの削減について述べる。
論文参考訳（メタデータ） (2021-05-21T12:08:16Z)
Robustifying the Deployment of tinyML Models for Autonomous mini-vehicles [61.27933385742613]
本稿では,ループ内環境を含む自動運転ミニ車両を対象とした閉ループ学習フローを提案する。我々は、小型CNNのファミリーを利用してミニ車両を制御し、コンピュータビジョンアルゴリズム、すなわち専門家を模倣してターゲット環境で学習する。 CNNのファミリを実行する場合、我々のソリューションはSTM32L4とk64f(Cortex-M4)の他の実装よりも優れており、レイテンシを13倍以上削減し、エネルギー消費を92%削減する。
論文参考訳（メタデータ） (2020-07-01T07:54:26Z)
Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。脳波信号を分類するためのディープラーニングモデルが登場した。これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文参考訳（メタデータ） (2020-04-24T12:29:03Z)
An Accurate EEGNet-based Motor-Imagery Brain-Computer Interface for Low-Power Edge Computing [13.266626571886354]
本稿では,MI-BCI(MI-BCI)の精度と堅牢性を示す。 EEGNetに基づく新しいモデルでは、低消費電力マイクロコントローラユニット(MCU)のメモリフットプリントと計算資源の要件が一致している。スケールされたモデルは、最小モデルを操作するために101msと4.28mJを消費する商用のCortex-M4F MCUにデプロイされ、中型モデルでは44msと18.1mJのCortex-M7にデプロイされる。
論文参考訳（メタデータ） (2020-03-31T19:52:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。