論文の概要: Self-Learning for Personalized Keyword Spotting on Ultra-Low-Power Audio Sensors
- arxiv url: http://arxiv.org/abs/2408.12481v1
- Date: Thu, 22 Aug 2024 15:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:22:23.147761
- Title: Self-Learning for Personalized Keyword Spotting on Ultra-Low-Power Audio Sensors
- Title(参考訳): 超低消費電力オーディオセンサにおける個人化キーワードスポッティングのための自己学習
- Authors: Manuele Rusci, Francesco Paci, Marco Fariselli, Eric Flamand, Tinne Tuytelaars,
- Abstract要約: 本稿では,超低消費電力スマートオーディオセンサへの展開後,個人化キーワードスポッティング(KWS)モデルを段階的に学習する自己学習フレームワークを提案する。
類似度スコアに基づいて,新たに録音した音声フレームに擬似ラベルを割り当てることにより,ラベル付きトレーニングデータがないという根本的な問題に対処する。
私たちの経験的結果は、極端に自己適応型のKWSセンサを配置する方法を舗装しています。
- 参考スコア(独自算出の注目度): 27.684160259995174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a self-learning framework to incrementally train (fine-tune) a personalized Keyword Spotting (KWS) model after the deployment on ultra-low power smart audio sensors. We address the fundamental problem of the absence of labeled training data by assigning pseudo-labels to the new recorded audio frames based on a similarity score with respect to few user recordings. By experimenting with multiple KWS models with a number of parameters up to 0.5M on two public datasets, we show an accuracy improvement of up to +19.2% and +16.0% vs. the initial models pretrained on a large set of generic keywords. The labeling task is demonstrated on a sensor system composed of a low-power microphone and an energy-efficient Microcontroller (MCU). By efficiently exploiting the heterogeneous processing engines of the MCU, the always-on labeling task runs in real-time with an average power cost of up to 8.2 mW. On the same platform, we estimate an energy cost for on-device training 10x lower than the labeling energy if sampling a new utterance every 5 s or 16.4 s with a DS-CNN-S or a DS-CNN-M model. Our empirical result paves the way to self-adaptive personalized KWS sensors at the extreme edge.
- Abstract(参考訳): 本稿では,超低消費電力スマートオーディオセンサへの展開後,個人化キーワードスポッティング(KWS)モデルをインクリメンタルに訓練する自己学習フレームワークを提案する。
類似度スコアに基づいて,新たに録音した音声フレームに擬似ラベルを割り当てることにより,ラベル付きトレーニングデータがないという根本的な問題に対処する。
2つの公開データセット上で最大0.5Mまでのパラメータを持つ複数のKWSモデルを実験することにより、大規模なジェネリックキーワードセットで事前訓練された初期モデルに対して、+19.2%と+16.0%の精度向上を示す。
低消費電力マイクロホンとエネルギー効率のマイクロコントローラ(MCU)からなるセンサシステムでラベリングタスクを実演する。
MCUの不均一な処理エンジンを効率的に活用することにより、常時オンのラベリングタスクは平均電力コスト8.2mWでリアルタイムに実行される。
同じプラットフォーム上で,DS-CNN-SモデルやDS-CNN-Mモデルを用いて,5秒ないし16.4秒毎に新しい発話をサンプリングする場合,デバイス上でのトレーニングを行う場合,ラベル付けエネルギーよりも10倍低いエネルギーコストを推定する。
私たちの経験的結果は、極端に自己適応型のKWSセンサを配置する方法を舗装しています。
関連論文リスト
- TSAK: Two-Stage Semantic-Aware Knowledge Distillation for Efficient Wearable Modality and Model Optimization in Manufacturing Lines [4.503003860563811]
製造ラインにおける効率, プライバシー, ウェアラブルHARのための2段階のセマンティック・アウェア・ナレッジ蒸留手法TSAKを提案する。
より大きな教師モデルと比較して、学生モデルはシングルハンドのセンサーチャネルを減らし、79%のパラメータを減らし、8.88倍の速度で動作し、96.6%のコンピュータパワー(FLOPS)を必要とする。
論文 参考訳(メタデータ) (2024-08-26T09:44:21Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Guided Hybrid Quantization for Object detection in Multimodal Remote
Sensing Imagery via One-to-one Self-teaching [35.316067181895264]
本稿では,1対1の自己学習(GHOST)フレームワークを用いたハイブリッド量子化手法を提案する。
まず, 導電性量子化自己蒸留(GQSD)と呼ばれる構造を設計する。
第3に、情報変換を改善するために、学生ネットワークに自己判断能力を与える1対1の自己学習モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-31T06:14:59Z) - Toward smart composites: small-scale, untethered prediction and control
for soft sensor/actuator systems [0.6465251961564604]
組込みマイクロコントローラユニット(MCU)を用いたセンサ/アクチュエータシステムのモデル予測制御のためのアルゴリズムとツールについて述べる。
これらのMCUはセンサーやアクチュエータと組み合わせることで、自律的な動作が可能な新しいタイプのスマートコンポジットを可能にする。
オンラインNewton-Raphson最適化は制御入力を最適化する。
論文 参考訳(メタデータ) (2022-05-22T22:19:09Z) - Sub-mW Keyword Spotting on an MCU: Analog Binary Feature Extraction and
Binary Neural Networks [19.40893986868577]
キーワードスポッティング(KWS)は、我々の周辺にある多くのユビキタススマートデバイスとのインタラクションを可能にする重要な機能である。
本研究は、低コストマイクロコントローラユニット(MCU)におけるKWSエネルギー効率に対処する。
デジタル前処理をアナログフロントエンドに置き換えることで、データ取得と前処理に必要なエネルギーを29倍に削減できることを示す。
論文 参考訳(メタデータ) (2022-01-10T15:10:58Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z) - Small-Footprint Keyword Spotting with Multi-Scale Temporal Convolution [5.672132510411465]
キーワードスポッティング(KWS)は、スマートデバイス端末やサービスロボットにおける人間とコンピュータのインタラクションにおいて重要な役割を果たす。
KWSタスクの小さなフットプリントと高い精度のトレードオフを達成することは依然として困難である。
本稿では,カーネルサイズが異なる複数の時間的畳み込みフィルタからなるCNNブロックであるMTConvを提案する。
論文 参考訳(メタデータ) (2020-10-20T02:07:07Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。