Fugu-MT 論文翻訳(概要): QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles

論文の概要: QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles

arxiv url: http://arxiv.org/abs/2404.12599v1
Date: Fri, 19 Apr 2024 03:06:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 16:24:58.647621
Title: QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles
Title（参考訳）: QUTE:TinyMLモデルの早期終了支援アンサンブルによる不確かさの定量化
Authors: Nikhil P Ghanathe, Steve Wilton,
Abstract要約: そこで本研究では,QUTEを提案する。QUTEは資源効率のよいアーリーエグジット支援型アンサンブルアーキテクチャで,最小限のMLモデルに最適化されている。以上の結果から,QUTEは一般的な先行研究よりも優れており,平均モデルサイズ3.1倍の精度で不確実性評価の質を6%向上させることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing methods for uncertainty quantification incur massive memory and compute overhead, often requiring multiple models/inferences. Hence they are impractical on ultra-low-power KB-sized TinyML devices. To reduce overhead, prior works have proposed the use of early-exit networks as ensembles to quantify uncertainty in a single forward-pass. However, they still have a prohibitive cost for tinyML. To address these challenges, we propose QUTE, a novel resource-efficient early-exit-assisted ensemble architecture optimized for tinyML models. QUTE adds additional output blocks at the final exit of the base network and distills the knowledge of early-exits into these blocks to create a diverse and lightweight ensemble architecture. Our results show that QUTE outperforms popular prior works, and improves the quality of uncertainty estimates by 6% with 3.1x lower model size on average compared to the most relevant prior work. Furthermore, we demonstrate that QUTE is also effective in detecting co-variate shifted and out-of-distribution inputs, and shows competitive performance relative to G-ODIN, a state-of-the-art generalized OOD detector.
Abstract（参考訳）: 不確実性定量化のための既存の手法は、大量のメモリと計算オーバーヘッドを発生させ、しばしば複数のモデル/推論を必要とする。そのため、超低消費電力のKBサイズのTinyMLデバイスでは実用的ではない。オーバヘッドを低減するため、先行研究では、1つのフォワードパスにおける不確実性を定量化するためのアンサンブルとしてアーリーエグジットネットワークが提案されている。しかし、彼らはいまだに smallML の禁止コストを抱えている。これらの課題に対処するため、我々はQUTEを提案する。QUTEは、最小限のMLモデルに最適化された、リソース効率のよいアーリーエグジット支援アンサンブルアーキテクチャである。 QUTEは、ベースネットワークの最終出口に出力ブロックを追加し、初期出力の知識をこれらのブロックに蒸留して、多種多様な軽量アンサンブルアーキテクチャを作成する。その結果、QUTEは一般的な先行作業よりも優れており、最も関連性の高い先行作業に比べて平均3.1倍のモデルサイズで不確実性評価の質を6%向上させることがわかった。さらに、QUTEは共変量シフトおよび分布外入力の検出にも有効であることを示すとともに、最先端のOOD検出器であるG-ODINに対する競合性能を示す。

関連論文リスト

One LLM to Train Them All: Multi-Task Learning Framework for Fact-Checking [7.856998585396422]
大規模言語モデル(LLM)は、統合されたエンドツーエンドの検証パイプラインを有効にすることで、自動化されたファクトチェック(AFC)を再構築している。我々は,主張検出,エビデンスランキング,スタンス検出を共同で行うために,単一のモデルを微調整する,より効率的な代替手段として,textbfmulti-task Learning (MTL)を提案する。
論文参考訳（メタデータ） (2026-01-16T13:44:25Z)
End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文参考訳（メタデータ） (2025-08-21T01:18:27Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML [0.0]
我々は、TinyMLのシングルパスラベルなし不確実性手法である textbfSNAP-UQ を導入する。 int8ヘッドは、前者の圧縮されたビューから次の層の統計を予測します。この設計では、一時バッファ、補助出口、または繰り返しフォワードパスを必要とせず、MCUデプロイメントに数キロバイトの追加しか必要としない。
論文参考訳（メタデータ） (2025-08-18T13:14:20Z)
Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文参考訳（メタデータ） (2023-10-06T01:59:19Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
T-RECX: Tiny-Resource Efficient Convolutional neural networks with early-eXit [0.0]
本稿では,早期出口中間分類器の追加により早期出口中間分類器が拡張可能であることを示す。我々の技術は、小型CNNモデルに特化している。その結果, T-RecX 1) はベースラインネットワークの精度を向上し, 2) FLOPS の平均 31.58% の削減を実現した。
論文参考訳（メタデータ） (2022-07-14T02:05:43Z)
An Empirical Study of Low Precision Quantization for TinyML [8.939851623894334]
モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
論文参考訳（メタデータ） (2022-03-10T17:22:08Z)
BSC: Block-based Stochastic Computing to Enable Accurate and Efficient TinyML [10.294484356351152]
マシンラーニング(ML)は、スマートフォンや自動運転など、エッジアプリケーションに成功している。現在、多くのアプリケーションは、TinyMLとして知られる移植可能な除細動器(ICD)のような非常に限られたリソースを持つ小さなデバイスでMLを必要とする。エッジのMLとは異なり、限られたエネルギー供給を持つTinyMLは低電力実行に対する要求が高い。
論文参考訳（メタデータ） (2021-11-12T12:28:05Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文参考訳（メタデータ） (2020-05-26T17:53:18Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。