論文の概要: MicroT: Low-Energy and Adaptive Models for MCUs
- arxiv url: http://arxiv.org/abs/2403.08040v2
- Date: Tue, 9 Jul 2024 09:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 23:41:10.337647
- Title: MicroT: Low-Energy and Adaptive Models for MCUs
- Title(参考訳): MicroT:MCUの低エネルギー・適応モデル
- Authors: Yushan Huang, Ranya Aloufi, Xavier Cadet, Yuchen Zhao, Payam Barnaghi, Hamed Haddadi,
- Abstract要約: MicroTはリソース制約型MCUのための低エネルギーマルチタスク適応モデルフレームワークである。
我々はMicroTを2つのモデル、3つのデータセット、2つのMCUボードで評価した。
- 参考スコア(独自算出の注目度): 7.540045123542394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MicroT, a low-energy, multi-task adaptive model framework for resource-constrained MCUs. We divide the original model into a feature extractor and a classifier. The feature extractor is obtained through self-supervised knowledge distillation and further optimized into part and full models through model splitting and joint training. These models are then deployed on MCUs, with classifiers added and trained on local tasks, ultimately performing stage-decision for joint inference. In this process, the part model initially processes the sample, and if the confidence score falls below the set threshold, the full model will resume and continue the inference. We evaluate MicroT on two models, three datasets, and two MCU boards. Our experimental evaluation shows that MicroT effectively improves model performance and reduces energy consumption when dealing with multiple local tasks. Compared to the unoptimized feature extractor, MicroT can improve accuracy by up to 9.87%. On MCUs, compared to the standard full model inference, MicroT can save up to about 29.13% in energy consumption. MicroT also allows users to adaptively adjust the stage-decision ratio as needed, better balancing model performance and energy consumption. Under the standard stage-decision ratio configuration, MicroT can increase accuracy by 5.91% and save about 14.47% of energy consumption.
- Abstract(参考訳): 資源制約型MCUのための低エネルギーマルチタスク適応モデルフレームワークであるMicroTを提案する。
元のモデルを特徴抽出器と分類器に分割する。
この特徴抽出器は, 自己指導型知識蒸留により得られ, さらに, モデル分割とジョイントトレーニングにより, 部分モデルと完全モデルに最適化される。
これらのモデルは MCU 上に展開され、局所的なタスクに分類器を追加して訓練し、最終的には共同推論の段階決定を行う。
このプロセスでは、パートモデルはまずサンプルを処理し、信頼スコアが設定された閾値を下回ると、完全なモデルが再開され、推論が継続される。
我々はMicroTを2つのモデル、3つのデータセット、2つのMCUボードで評価した。
実験により、MicroTはモデル性能を効果的に向上し、複数のローカルタスクを扱う際のエネルギー消費量を削減できることが示された。
最適化されていない特徴抽出器と比較して、MicroTは最大9.87%精度を向上させることができる。
MCUでは、標準のフルモデル推論と比較して、MicroTはエネルギー消費の29.13%を節約できる。
MicroTでは、必要に応じてステージ決定比率を適応的に調整し、モデルパフォーマンスとエネルギー消費のバランスを改善することもできる。
標準段差比構成では、MicroTは精度を5.91%向上させ、エネルギー消費量の約14.47%を節約できる。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - DeepForge: Leveraging AI for Microstructural Control in Metal Forming
via Model Predictive Control [0.0]
本研究では, 閉鎖型熱間鍛造における組織制御手法を提案する。
Model PredictiveCMPとDeepForgeというマシンを組み合わせる。
論文 参考訳(メタデータ) (2024-02-25T15:37:14Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Energy-Based Reranking: Improving Neural Machine Translation Using
Energy-Based Models [59.039592890187144]
自己回帰型ニューラルネットワーク翻訳(NMT)における最大推定(MLE)とBLEUスコアなどのタスク尺度の相違について検討する。
MLEベースのトレーニングされたNMTから引き出されたサンプルは、所望の分布をサポートします。ビーム復号出力と比較して、BLEUスコアがはるかに高いサンプルがあります。
目的文の辺縁エネルギーモデルと、目的文の辺縁エネルギーモデルの両方を用いてアルゴリズムを改良する。
論文 参考訳(メタデータ) (2020-09-20T02:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。