Fugu-MT 論文翻訳(概要): QUTE: Quantifying Uncertainty in TinyML with Early-exit-assisted ensembles for model-monitoring

論文の概要: QUTE: Quantifying Uncertainty in TinyML with Early-exit-assisted ensembles for model-monitoring

arxiv url: http://arxiv.org/abs/2404.12599v2
Date: Sat, 16 Nov 2024 06:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.944223
Title: QUTE: Quantifying Uncertainty in TinyML with Early-exit-assisted ensembles for model-monitoring
Title（参考訳）: QUTE: モデル監視のための早期終了支援アンサンブルを用いたTinyMLの不確かさの定量化
Authors: Nikhil P Ghanathe, Steven J E Wilton,
Abstract要約: 不確実性定量化(UQ)は、真のラベルにアクセスせずにデプロイされた小さなMLモデルのオンデバイス監視のためのリソース効率の高いソリューションを提供する。 QUTEは,資源効率の優れた早期終了支援型アンサンブルアーキテクチャであり,最適化された小型MLモデルのためのアーキテクチャである。 QUTEは、より小さなモデルに対して優れた不確実性を提供し、最も近い作業よりも59%小さいモデルサイズで、より大きなモデルで同等のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Uncertainty quantification (UQ) provides a resource-efficient solution for on-device monitoring of tinyML models deployed without access to true labels. However, existing UQ methods impose significant memory and compute demands, making them impractical for ultra-low-power, KB-sized TinyML devices. Prior work has attempted to reduce overhead by using early-exit ensembles to quantify uncertainty in a single forward pass, but these approaches still carry prohibitive costs. To address this, we propose QUTE, a novel resource-efficient early-exit-assisted ensemble architecture optimized for tinyML models. QUTE introduces additional output blocks at the final exit of the base network, distilling early-exit knowledge into these blocks to form a diverse yet lightweight ensemble. We show that QUTE delivers superior uncertainty quality on tiny models, achieving comparable performance on larger models with 59% smaller model sizes than the closest prior work. When deployed on a microcontroller, QUTE demonstrates a 31% reduction in latency on average. In addition, we show that QUTE excels at detecting accuracy-drop events, outperforming all prior works.
Abstract（参考訳）: 不確実性定量化(UQ)は、真のラベルにアクセスせずにデプロイされた小さなMLモデルのオンデバイス監視のためのリソース効率の高いソリューションを提供する。しかし、既存のUQメソッドはメモリと計算の要求がかなり大きいため、超低消費電力のKBサイズのTinyMLデバイスでは実用的ではない。以前の作業では、1回の前方通過で不確実性を定量化するために早期終了アンサンブルを使用することでオーバーヘッドを削減しようとしたが、これらのアプローチは依然として禁止的なコストを課している。そこで本研究では,QUTEを提案する。QUTEは,最小限のMLモデルに最適化された,リソース効率のよいアーリーエグジット支援アンサンブルアーキテクチャである。 QUTEは、ベースネットワークの最終出口で追加の出力ブロックを導入し、初期からの知識をこれらのブロックに蒸留し、多様なが軽量なアンサンブルを形成する。 QUTEは、より小さなモデルに対して優れた不確実性を提供し、最も近い作業よりも59%小さいモデルサイズで、より大きなモデルで同等のパフォーマンスを実現する。マイクロコントローラにデプロイすると、QUTEは平均して31%のレイテンシ低下を示す。さらに,QUTEは精度低下イベントの検出に優れ,先行するすべての作業に優れることを示す。

関連論文リスト

Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文参考訳（メタデータ） (2023-10-06T01:59:19Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
T-RECX: Tiny-Resource Efficient Convolutional neural networks with early-eXit [0.0]
本稿では,早期出口中間分類器の追加により早期出口中間分類器が拡張可能であることを示す。我々の技術は、小型CNNモデルに特化している。その結果, T-RecX 1) はベースラインネットワークの精度を向上し, 2) FLOPS の平均 31.58% の削減を実現した。
論文参考訳（メタデータ） (2022-07-14T02:05:43Z)
An Empirical Study of Low Precision Quantization for TinyML [8.939851623894334]
モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
論文参考訳（メタデータ） (2022-03-10T17:22:08Z)
BSC: Block-based Stochastic Computing to Enable Accurate and Efficient TinyML [10.294484356351152]
マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
論文参考訳（メタデータ） (2021-11-12T12:28:05Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。