論文の概要: Once-for-All Channel Mixers (HYPERTINYPW): Generative Compression for TinyML
- arxiv url: http://arxiv.org/abs/2603.24916v1
- Date: Thu, 26 Mar 2026 01:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.036628
- Title: Once-for-All Channel Mixers (HYPERTINYPW): Generative Compression for TinyML
- Title(参考訳): once-for-all Channel Mixers (HYPERTINYPW): TinyML の生成圧縮
- Authors: Yassien Shaalan,
- Abstract要約: 提案するHYPER-TINYPWは圧縮・アズ・ジェネレーション方式で、ほとんどのPW重みを生成された重みに置き換える。
共有マイクロMLPは、レイヤごとの小さなコードからロード時に一度PWカーネルを合成し、それらをキャッシュし、標準的な整数演算子で実行する。
商用のMCUランタイムを保存し、ワンオフでのみ追加する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying neural networks on microcontrollers is constrained by kilobytes of flash and SRAM, where 1x1 pointwise (PW) mixers often dominate memory even after INT8 quantization across vision, audio, and wearable sensing. We present HYPER-TINYPW, a compression-as-generation approach that replaces most stored PW weights with generated weights: a shared micro-MLP synthesizes PW kernels once at load time from tiny per-layer codes, caches them, and executes them with standard integer operators. This preserves commodity MCU runtimes and adds only a one-off synthesis cost; steady-state latency and energy match INT8 separable CNN baselines. Enforcing a shared latent basis across layers removes cross-layer redundancy, while keeping PW1 in INT8 stabilizes early, morphology-sensitive mixing. We contribute (i) TinyML-faithful packed-byte accounting covering generator, heads/factorization, codes, kept PW1, and backbone; (ii) a unified evaluation with validation-tuned t* and bootstrap confidence intervals; and (iii) a deployability analysis covering integer-only inference and boot versus lazy synthesis. On three ECG benchmarks (Apnea-ECG, PTB-XL, MIT-BIH), HYPER-TINYPW shifts the macro-F1 versus flash Pareto frontier: at about 225 kB it matches a roughly 1.4 MB CNN while being 6.31x smaller (84.15% fewer bytes), retaining at least 95% of large-model macro-F1. Under 32-64 kB budgets it sustains balanced detection where compact baselines degrade. The mechanism applies broadly to other 1D biosignals, on-device speech, and embedded sensing tasks where per-layer redundancy dominates, indicating a wider role for compression-as-generation in resource-constrained ML systems. Beyond ECG, HYPER-TINYPW transfers to TinyML audio: on Speech Commands it reaches 96.2% test accuracy (98.2% best validation), supporting broader applicability to embedded sensing workloads where repeated linear mixers dominate memory.
- Abstract(参考訳): マイクロコントローラへのニューラルネットワークの展開は、1x1ポイントワイド(PW)ミキサーが視覚、オーディオ、ウェアラブルセンサーをまたいだINT8量子化後にもメモリを支配している場合、キロバイトのフラッシュとSRAMによって制限される。
共有マイクロMLPは、小さな層ごとのコードからロード時にPWカーネルを1回合成し、それらをキャッシュし、標準整数演算子で実行する。
これは、コモディティなMCUランタイムを保存し、ワンオフ合成コストのみを追加し、安定した状態のレイテンシとエネルギーはINT8の分離可能なCNNベースラインにマッチする。
層間の共有潜伏基底を強制することは、層間冗長性を排除し、また、INT8のPW1を保ち、モルフォロジーに敏感な混合を早期に安定化させる。
コントリビューション
(i)TinyML対応のパックバイト会計で、ジェネレータ、ヘッド/ファクトリゼーション、コード、保留PW1及びバックボーンをカバーしている。
二 検証調整されたt*及びブートストラップ信頼区間による統一評価
三 整数のみの推論とブートと遅延合成を対象とするデプロイ可能性分析。
ECGベンチマーク(Apnea-ECG, PTB-XL, MIT-BIH)では、HYPER-TINYPWはマクロF1とフラッシュParetoフロンティアをシフトする。
32-64kBの予算の下では、コンパクトなベースラインが劣化するバランスの取れた検出が維持される。
このメカニズムは、他の1Dバイオシグナー、オンデバイス音声、層ごとの冗長性が支配される組込みセンシングタスクに広く適用され、リソース制約MLシステムにおける圧縮・アズ・ジェネレーションの幅広い役割を示す。
ECG以外にも、HYPER-TINYPWはTinyMLオーディオに転送される: 音声コマンドでは96.2%のテスト精度(98.2%のベストバリデーション)に達し、繰り返しリニアミキサーがメモリを支配している組み込みセンシングワークロードへの適用性をサポートする。
関連論文リスト
- FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill and Decode Inference [48.40143137402824]
MLA(Multi-Head Latent Attention)は、キー値の状態を低ランクの潜在ベクトルに圧縮し、このベクトルだけをキャッシュしてメモリを減少させる。
しかし、テンソル並列性(TP)では、アテンションヘッドは複数のデバイスにまたがって計算され、各デバイスはフルキャッシュをロードしなければならない。
本稿では,潜在表現と各頭部の入力次元をデバイス間で分割し,シャード毎に独立して注目を行い,結果を全再現と組み合わせる方式であるTPLAを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:25:40Z) - TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs [5.889337608109388]
TeLLMeは、低消費電力FPGAのための最初の3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
7Wの電力予算の下では、TeLLMeは最大9トークン/秒のスループットを1,024トークンのコンテキストで提供する。
論文 参考訳(メタデータ) (2025-04-22T21:00:58Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Multi-Feature Fusion and Compressed Bi-LSTM for Memory-Efficient Heartbeat Classification on Wearable Devices [0.0]
多機能核融合と双方向長短期記憶(Bi-LSTM)を用いた心電図(ECG)を用いた心拍分類の資源効率向上手法を提案する。
このデータセットは、MIT-BIH Arrhythmia Database: Normal (N)、Left Bundle Branch Block (LBBB)、Right Bundle Branch Block (RBBB)、Premature Ventricular Contraction (PVC)、Paced Beat (PB)の5つのオリジナルクラスで構成されている。
論文 参考訳(メタデータ) (2024-05-24T07:53:27Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。