論文の概要: Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems
- arxiv url: http://arxiv.org/abs/2601.16158v1
- Date: Thu, 22 Jan 2026 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.684592
- Title: Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems
- Title(参考訳): 資源制約システムにおけるロバストかつ効率的なキーワードスポッティングのためのドメイン-インクリメンタル連続学習
- Authors: Prakash Dhungana, Sayed Ahmad Salehi,
- Abstract要約: キーワード エッジデバイスにデプロイされる小さなフットプリントモデルを備えたスポッティングシステムは、かなりの精度と堅牢性に直面する。
計算効率を維持しつつ,新しい領域に適応する継続的学習のための包括的フレームワークを提案する。
提案したパイプラインは、Mel Frequency Cepstral Coefficients(MFCC)とMel-spectrogram機能の両方を利用して、デュアルインプットの畳み込みニューラルネットワークを統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword Spotting (KWS) systems with small footprint models deployed on edge devices face significant accuracy and robustness challenges due to domain shifts caused by varying noise and recording conditions. To address this, we propose a comprehensive framework for continual learning designed to adapt to new domains while maintaining computational efficiency. The proposed pipeline integrates a dual-input Convolutional Neural Network, utilizing both Mel Frequency Cepstral Coefficients (MFCC) and Mel-spectrogram features, supported by a multi-stage denoising process, involving discrete wavelet transform and spectral subtraction techniques, plus model and prototype update blocks. Unlike prior methods that restrict updates to specific layers, our approach updates the complete quantized model, made possible due to compact model architecture. A subset of input samples are selected during runtime using class prototypes and confidence-driven filtering, which are then pseudo-labeled and combined with rehearsal buffer for incremental model retraining. Experimental results on noisy test dataset demonstrate the framework's effectiveness, achieving 99.63\% accuracy on clean data and maintaining robust performance (exceeding 94\% accuracy) across diverse noisy environments, even at -10 dB Signal-to-Noise Ratio. The proposed framework work confirms that integrating efficient denoising with prototype-based continual learning enables KWS models to operate autonomously and robustly in resource-constrained, dynamic environments.
- Abstract(参考訳): エッジデバイスに展開する小さなフットプリントモデルを持つキーワードスポッティング(KWS)システムは、ノイズや記録条件の変化によって生じるドメインシフトによって、かなりの精度と堅牢性の問題に直面している。
そこで本稿では,計算効率を維持しつつ,新しい領域に適応する継続的学習のための包括的フレームワークを提案する。
提案したパイプラインは、Mel Frequency Cepstral Coefficients (MFCC) とMel-spectrogramの2つの特徴を活用し、離散ウェーブレット変換とスペクトルサブトラクション技術、モデルおよびプロトタイプ更新ブロックを含むマルチステージデノナイジングプロセスによってサポートされたデュアルインプット畳み込みニューラルネットワークを統合している。
特定のレイヤへの更新を制限する従来の方法とは異なり、当社のアプローチでは、コンパクトなモデルアーキテクチャによって可能になった完全な量子化モデルを更新しています。
入力サンプルのサブセットは、クラスプロトタイプと信頼駆動フィルタリングを使用して実行中に選択される。
ノイズの多いテストデータセットの実験結果は、フレームワークの有効性を示し、クリーンなデータに対して99.63パーセントの精度を達成し、様々なノイズの多い環境、たとえ10dBのSignal-to-Noise比であっても、堅牢なパフォーマンス(94\%の精度で)を維持する。
提案手法は,KWSモデルが資源制約のある動的環境下で自律的かつ堅牢に動作できることを示す。
関連論文リスト
- Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - Artificial Intelligence-Based Multiscale Temporal Modeling for Anomaly Detection in Cloud Services [10.421371572062595]
本研究では,マルチスケール特徴認識を統合したTransformerアーキテクチャに基づく異常検出手法を提案する。
提案手法は,精度,リコール,AUC,F1スコアなどの主要な指標において,主流のベースラインモデルより優れている。
論文 参考訳(メタデータ) (2025-08-20T07:52:36Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - Machine Unlearning for Robust DNNs: Attribution-Guided Partitioning and Neuron Pruning in Noisy Environments [5.8166742412657895]
ディープニューラルネットワーク(DNN)は、さまざまなドメインで顕著な成功を収めているが、ノイズやトレーニングデータによってそのパフォーマンスが著しく低下する可能性がある。
本稿では,帰属誘導型データパーティショニング,識別的ニューロンプルーニング,およびノイズのあるサンプルの影響を軽減するための微調整を目的とした新しいフレームワークを提案する。
CIFAR-10の標準リトレーニングよりも約10%の絶対精度向上を実現し,ラベルノイズを注入した。
論文 参考訳(メタデータ) (2025-06-13T09:37:11Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。