論文の概要: QUTE: Quantifying Uncertainty in TinyML with Early-exit-assisted ensembles for model-monitoring
- arxiv url: http://arxiv.org/abs/2404.12599v2
- Date: Sat, 16 Nov 2024 06:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:31.672341
- Title: QUTE: Quantifying Uncertainty in TinyML with Early-exit-assisted ensembles for model-monitoring
- Title(参考訳): QUTE: モデル監視のための早期終了支援アンサンブルを用いたTinyMLの不確かさの定量化
- Authors: Nikhil P Ghanathe, Steven J E Wilton,
- Abstract要約: 不確実性定量化(UQ)は、真のラベルにアクセスせずにデプロイされた小さなMLモデルのオンデバイス監視のためのリソース効率の高いソリューションを提供する。
QUTEは,資源効率の優れた早期終了支援型アンサンブルアーキテクチャであり,最適化された小型MLモデルのためのアーキテクチャである。
QUTEは、より小さなモデルに対して優れた不確実性を提供し、最も近い作業よりも59%小さいモデルサイズで、より大きなモデルで同等のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Uncertainty quantification (UQ) provides a resource-efficient solution for on-device monitoring of tinyML models deployed without access to true labels. However, existing UQ methods impose significant memory and compute demands, making them impractical for ultra-low-power, KB-sized TinyML devices. Prior work has attempted to reduce overhead by using early-exit ensembles to quantify uncertainty in a single forward pass, but these approaches still carry prohibitive costs. To address this, we propose QUTE, a novel resource-efficient early-exit-assisted ensemble architecture optimized for tinyML models. QUTE introduces additional output blocks at the final exit of the base network, distilling early-exit knowledge into these blocks to form a diverse yet lightweight ensemble. We show that QUTE delivers superior uncertainty quality on tiny models, achieving comparable performance on larger models with 59% smaller model sizes than the closest prior work. When deployed on a microcontroller, QUTE demonstrates a 31% reduction in latency on average. In addition, we show that QUTE excels at detecting accuracy-drop events, outperforming all prior works.
- Abstract(参考訳): 不確実性定量化(UQ)は、真のラベルにアクセスせずにデプロイされた小さなMLモデルのオンデバイス監視のためのリソース効率の高いソリューションを提供する。
しかし、既存のUQメソッドはメモリと計算の要求がかなり大きいため、超低消費電力のKBサイズのTinyMLデバイスでは実用的ではない。
以前の作業では、1回の前方通過で不確実性を定量化するために早期終了アンサンブルを使用することでオーバーヘッドを削減しようとしたが、これらのアプローチは依然として禁止的なコストを課している。
そこで本研究では,QUTEを提案する。QUTEは,最小限のMLモデルに最適化された,リソース効率のよいアーリーエグジット支援アンサンブルアーキテクチャである。
QUTEは、ベースネットワークの最終出口で追加の出力ブロックを導入し、初期からの知識をこれらのブロックに蒸留し、多様なが軽量なアンサンブルを形成する。
QUTEは、より小さなモデルに対して優れた不確実性を提供し、最も近い作業よりも59%小さいモデルサイズで、より大きなモデルで同等のパフォーマンスを実現する。
マイクロコントローラにデプロイすると、QUTEは平均して31%のレイテンシ低下を示す。
さらに,QUTEは精度低下イベントの検出に優れ,先行するすべての作業に優れることを示す。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Artemis: Efficient Commit-and-Prove SNARKs for zkML [42.16294591171022]
ZkML技術は、センシティブな情報を明らかにすることなく、機械学習モデルのさまざまな側面の検証を可能にする。
zkMLの最近の進歩は、効率を大幅に改善した。
本稿では,コミット検証の課題を効果的に解決する2つの新しいコミット・アンド・プロブSNARK構造を提案する。
論文 参考訳(メタデータ) (2024-09-18T15:30:29Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - T-RECX: Tiny-Resource Efficient Convolutional neural networks with
early-eXit [0.0]
本稿では,早期出口中間分類器の追加により早期出口中間分類器が拡張可能であることを示す。
我々の技術は、小型CNNモデルに特化している。
その結果, T-RecX 1) はベースラインネットワークの精度を向上し, 2) FLOPS の平均 31.58% の削減を実現した。
論文 参考訳(メタデータ) (2022-07-14T02:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。