論文の概要: QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles
- arxiv url: http://arxiv.org/abs/2404.12599v1
- Date: Fri, 19 Apr 2024 03:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:24:58.647621
- Title: QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles
- Title(参考訳): QUTE:TinyMLモデルの早期終了支援アンサンブルによる不確かさの定量化
- Authors: Nikhil P Ghanathe, Steve Wilton,
- Abstract要約: そこで本研究では,QUTEを提案する。QUTEは資源効率のよいアーリーエグジット支援型アンサンブルアーキテクチャで,最小限のMLモデルに最適化されている。
以上の結果から,QUTEは一般的な先行研究よりも優れており,平均モデルサイズ3.1倍の精度で不確実性評価の質を6%向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for uncertainty quantification incur massive memory and compute overhead, often requiring multiple models/inferences. Hence they are impractical on ultra-low-power KB-sized TinyML devices. To reduce overhead, prior works have proposed the use of early-exit networks as ensembles to quantify uncertainty in a single forward-pass. However, they still have a prohibitive cost for tinyML. To address these challenges, we propose QUTE, a novel resource-efficient early-exit-assisted ensemble architecture optimized for tinyML models. QUTE adds additional output blocks at the final exit of the base network and distills the knowledge of early-exits into these blocks to create a diverse and lightweight ensemble architecture. Our results show that QUTE outperforms popular prior works, and improves the quality of uncertainty estimates by 6% with 3.1x lower model size on average compared to the most relevant prior work. Furthermore, we demonstrate that QUTE is also effective in detecting co-variate shifted and out-of-distribution inputs, and shows competitive performance relative to G-ODIN, a state-of-the-art generalized OOD detector.
- Abstract(参考訳): 不確実性定量化のための既存の手法は、大量のメモリと計算オーバーヘッドを発生させ、しばしば複数のモデル/推論を必要とする。
そのため、超低消費電力のKBサイズのTinyMLデバイスでは実用的ではない。
オーバヘッドを低減するため、先行研究では、1つのフォワードパスにおける不確実性を定量化するためのアンサンブルとしてアーリーエグジットネットワークが提案されている。
しかし、彼らはいまだに smallML の禁止コストを抱えている。
これらの課題に対処するため、我々はQUTEを提案する。QUTEは、最小限のMLモデルに最適化された、リソース効率のよいアーリーエグジット支援アンサンブルアーキテクチャである。
QUTEは、ベースネットワークの最終出口に出力ブロックを追加し、初期出力の知識をこれらのブロックに蒸留して、多種多様な軽量アンサンブルアーキテクチャを作成する。
その結果、QUTEは一般的な先行作業よりも優れており、最も関連性の高い先行作業に比べて平均3.1倍のモデルサイズで不確実性評価の質を6%向上させることがわかった。
さらに、QUTEは共変量シフトおよび分布外入力の検出にも有効であることを示すとともに、最先端のOOD検出器であるG-ODINに対する競合性能を示す。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - T-RECX: Tiny-Resource Efficient Convolutional neural networks with
early-eXit [0.0]
本稿では,早期出口中間分類器の追加により早期出口中間分類器が拡張可能であることを示す。
我々の技術は、小型CNNモデルに特化している。
その結果, T-RecX 1) はベースラインネットワークの精度を向上し, 2) FLOPS の平均 31.58% の削減を実現した。
論文 参考訳(メタデータ) (2022-07-14T02:05:43Z) - An Empirical Study of Low Precision Quantization for TinyML [8.939851623894334]
モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
論文 参考訳(メタデータ) (2022-03-10T17:22:08Z) - BSC: Block-based Stochastic Computing to Enable Accurate and Efficient
TinyML [10.294484356351152]
マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。
現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。
エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
論文 参考訳(メタデータ) (2021-11-12T12:28:05Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。