論文の概要: QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles
- arxiv url: http://arxiv.org/abs/2404.12599v1
- Date: Fri, 19 Apr 2024 03:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:24:58.647621
- Title: QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles
- Title(参考訳): QUTE:TinyMLモデルの早期終了支援アンサンブルによる不確かさの定量化
- Authors: Nikhil P Ghanathe, Steve Wilton,
- Abstract要約: そこで本研究では,QUTEを提案する。QUTEは資源効率のよいアーリーエグジット支援型アンサンブルアーキテクチャで,最小限のMLモデルに最適化されている。
以上の結果から,QUTEは一般的な先行研究よりも優れており,平均モデルサイズ3.1倍の精度で不確実性評価の質を6%向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for uncertainty quantification incur massive memory and compute overhead, often requiring multiple models/inferences. Hence they are impractical on ultra-low-power KB-sized TinyML devices. To reduce overhead, prior works have proposed the use of early-exit networks as ensembles to quantify uncertainty in a single forward-pass. However, they still have a prohibitive cost for tinyML. To address these challenges, we propose QUTE, a novel resource-efficient early-exit-assisted ensemble architecture optimized for tinyML models. QUTE adds additional output blocks at the final exit of the base network and distills the knowledge of early-exits into these blocks to create a diverse and lightweight ensemble architecture. Our results show that QUTE outperforms popular prior works, and improves the quality of uncertainty estimates by 6% with 3.1x lower model size on average compared to the most relevant prior work. Furthermore, we demonstrate that QUTE is also effective in detecting co-variate shifted and out-of-distribution inputs, and shows competitive performance relative to G-ODIN, a state-of-the-art generalized OOD detector.
- Abstract(参考訳): 不確実性定量化のための既存の手法は、大量のメモリと計算オーバーヘッドを発生させ、しばしば複数のモデル/推論を必要とする。
そのため、超低消費電力のKBサイズのTinyMLデバイスでは実用的ではない。
オーバヘッドを低減するため、先行研究では、1つのフォワードパスにおける不確実性を定量化するためのアンサンブルとしてアーリーエグジットネットワークが提案されている。
しかし、彼らはいまだに smallML の禁止コストを抱えている。
これらの課題に対処するため、我々はQUTEを提案する。QUTEは、最小限のMLモデルに最適化された、リソース効率のよいアーリーエグジット支援アンサンブルアーキテクチャである。
QUTEは、ベースネットワークの最終出口に出力ブロックを追加し、初期出力の知識をこれらのブロックに蒸留して、多種多様な軽量アンサンブルアーキテクチャを作成する。
その結果、QUTEは一般的な先行作業よりも優れており、最も関連性の高い先行作業に比べて平均3.1倍のモデルサイズで不確実性評価の質を6%向上させることがわかった。
さらに、QUTEは共変量シフトおよび分布外入力の検出にも有効であることを示すとともに、最先端のOOD検出器であるG-ODINに対する競合性能を示す。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Artemis: Efficient Commit-and-Prove SNARKs for zkML [42.16294591171022]
ZkML技術は、センシティブな情報を明らかにすることなく、機械学習モデルのさまざまな側面の検証を可能にする。
zkMLの最近の進歩は、効率を大幅に改善した。
本稿では,コミット検証の課題を効果的に解決する2つの新しいコミット・アンド・プロブSNARK構造を提案する。
論文 参考訳(メタデータ) (2024-09-18T15:30:29Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - T-RECX: Tiny-Resource Efficient Convolutional neural networks with
early-eXit [0.0]
本稿では,早期出口中間分類器の追加により早期出口中間分類器が拡張可能であることを示す。
我々の技術は、小型CNNモデルに特化している。
その結果, T-RecX 1) はベースラインネットワークの精度を向上し, 2) FLOPS の平均 31.58% の削減を実現した。
論文 参考訳(メタデータ) (2022-07-14T02:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。