論文の概要: SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML
- arxiv url: http://arxiv.org/abs/2508.12907v1
- Date: Mon, 18 Aug 2025 13:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.353886
- Title: SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML
- Title(参考訳): SNAP-UQ: TinyMLにおける単一パス不確実性に対する自己教師型次活性化予測
- Authors: Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh,
- Abstract要約: 我々は、TinyMLのシングルパスラベルなし不確実性手法である textbfSNAP-UQ を導入する。
int8ヘッドは、前者の圧縮されたビューから次の層の統計を予測します。
この設計では、一時バッファ、補助出口、または繰り返しフォワードパスを必要とせず、MCUデプロイメントに数キロバイトの追加しか必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textbf{SNAP-UQ}, a single-pass, label-free uncertainty method for TinyML that estimates risk from \emph{depth-wise next-activation prediction}: tiny int8 heads forecast the statistics of the next layer from a compressed view of the previous one, and a lightweight monotone mapper turns the resulting surprisal into an actionable score. The design requires no temporal buffers, auxiliary exits, or repeated forward passes, and adds only a few tens of kilobytes to MCU deployments. Across vision and audio backbones, SNAP-UQ consistently reduces flash and latency relative to early-exit and deep ensembles (typically $\sim$40--60\% smaller and $\sim$25--35\% faster), with competing methods of similar accuracy often exceeding memory limits. In corrupted streams it improves accuracy-drop detection by several AUPRC points and maintains strong failure detection (AUROC $\approx$0.9) in a single pass. Grounding uncertainty in layer-to-layer dynamics yields a practical, resource-efficient basis for on-device monitoring in TinyML.
- Abstract(参考訳): Int8ヘッドは、前者の圧縮されたビューから次の層の統計を予測し、軽量なモノトンマッパーは、その結果の仮定を実行可能なスコアに変換する。
この設計では、一時バッファ、補助出口、または繰り返しフォワードパスを必要とせず、MCUデプロイメントに数キロバイトの追加しか必要としない。
視界とオーディオのバックボーン全体にわたって、SNAP-UQは、早期終了と深層アンサンブル(通常、$\sim$40--60\%小さく、$\sim$25--35\%速く)に対するフラッシュと遅延を一貫して減らし、類似の精度の競合する手法はメモリ限界を超える。
破損したストリームでは、いくつかのAUPRCポイントによる精度・ドロップ検出を改善し、単一のパスで強い障害検出(AUROC $\approx$0.9)を維持する。
層間力学における接地不確実性は、TinyMLにおけるオンデバイス監視の実用的で資源効率のよい基盤となる。
関連論文リスト
- TCUQ: Single-Pass Uncertainty Quantification from Temporal Consistency with Streaming Conformal Calibration for TinyML [0.0]
TCUQは、TinyMLをストリーミングするためのシングルパスでラベルなしの不確実性モニタである。
後部の光信号によって捉えた短地平線時間一貫性を変換する。
ストリーミングコンフォメーション層は、このスコアを予算付きアクセプション/アビスタンスルールに変換する。
論文 参考訳(メタデータ) (2025-08-18T13:12:14Z) - Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs [0.8999666725996975]
混合精度(MP)は、ネットワーク層間での数値的精度の変化によってトレードオフを緩和する。
本研究では,PTQ(Post-Training Quantization)内の最適なMP構成を自動的に選択することに焦点を当てた。
論文 参考訳(メタデータ) (2025-05-19T12:51:02Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - QUTE: Quantifying Uncertainty in TinyML with Early-exit-assisted ensembles for model-monitoring [0.0]
不確実性定量化(UQ)は、真のラベルにアクセスせずにデプロイされた小さなMLモデルのオンデバイス監視のためのリソース効率の高いソリューションを提供する。
QUTEは,資源効率の優れた早期終了支援型アンサンブルアーキテクチャであり,最適化された小型MLモデルのためのアーキテクチャである。
QUTEは、より小さなモデルに対して優れた不確実性を提供し、最も近い作業よりも59%小さいモデルサイズで、より大きなモデルで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-19T03:06:50Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Fast Minimum-norm Adversarial Attacks through Adaptive Norm Constraints [29.227720674726413]
異なる$ell_p$-norm摂動モデルで動作する高速最小ノルム(FMN)攻撃を提案する。
実験の結果、FMNは収束速度と時間において既存の攻撃よりも著しく優れていた。
論文 参考訳(メタデータ) (2021-02-25T12:56:26Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。